Python爬虫

众所周知,许多网站为了尽可能屏蔽爬虫,在页面上布置了许多的Ajax动态请求,使得最常使用的urlopen很难再抓取到对应的信息,而干我们这一行的很多时候又有很大的数据需求,手工搜集数据实在是在浪费生命,于是,一种需要一种能够对抗Ajax的爬虫。如果对性能要求不是很高的话可以通过一些工具模拟浏览器,这样就和正常人进行访问的结果没什么区别,待页面正常渲染之后再行抓取。

阅读全文 »

Python的熊猫们(pandas)

1
import pandas as pd
阅读全文 »

我的R Language备忘录

只是稍微记录了一下我在R中常用到的一些简单语法

阅读全文 »

iOS中的全选技巧

iPhone上的文字全选功能实在是一个痛点,几经周折之后终于找到了一个稍微方便一些的全选技巧。

在页面顶部随便找一段文字,长按之后激活选择状态,接着找到左侧的选择点,往页面顶端拖动,就会激活全选。

来源
Shuttleworth125
Nov 13, 2014 9:53 AM
Re: Select all text in iOS 7 Safari not working
Try this, select any piece of text towards the top of the page, then drag the top blue dot up to the top of the screen, this should select all text to the bottom of the page.

我最近使用的任务、事件管理工具

总体是依附于Google Calendar + Google Task

WEB

解决方案: Google Calendar + Google Task

Google Calendar是一个挺好用的事件(Event)管理工具,它的闪光点在于可以将任务(Google Task)集成在一起,让我能够以月历的方式一目了然所有的事件和任务。而传统的任务管理中,只能以列表的方式来查看,让我觉得有一些些不太开心。

可这里仍然有几个美中不足的地方——
(1) 无法在日历中直接添加Google Task,Task需要从Google Calendar网页中的侧边栏添加。
(2) 添加Task体验不好,而且Task的时间粒度只能具体到天,不能添加具体的开始、结束时间,因此不能出现在当天具体的时间线上,只会被放置在最顶端。
(3) Google Task不能设置具体的通知时间… 这简直有点不能忍了。

阅读全文 »

[转]搜狐基于Spark的新闻和广告推荐实战


略微整理了一下,总而言之,搜狐目前主要也是使用Spark MLlib做广告推荐,CTR中常用的算法应该是LR和GBDT(关于GBDT可以参看这里)。

另外原文中提到的Facebook的论文可以参看这里

本文转载自CSDN云计算

阅读全文 »

[转]一个比特币套利系统,每天躺着收钱


这篇文章为我打开了一扇门,让我对“套利”这件事情有了更为深刻的认识,毕竟当年我也曾搬过比特币的砖,所以对这篇文章感觉格外亲切,但平凡的我就只限于做一个普通的搬砖工人,不思进取,一不小心就会被砖砸到脚;而聪明的作者却从中发现了不败的套利方法,着实让我大开眼界!

简而言之,作者运用比特币在多个市场之间价格类似于跷跷板的特点进行左右搬砖套利,并借助于融券功能保证了最终砖的价值不受市场价格的影响,纯粹套利而与砖的价值无关。

本文转载自知乎日报
作者:袁浩瀚(知乎)

阅读全文 »