[读书笔记]自慢

《自慢》

我以为《自慢》是我近些年看过的最有用的一本杂书。

摘录

18.成功的人都是历经危机之后更加强大茁壮。

面对危机,要有“第一时间勇敢面对”的态度

克服逃避问题的个性,从“把最多的时间和精力分配给不喜欢做的事”开始!

20.工作不当在野党,要成为主流拍。

和则留,不和则散,没必要百般挑剔恶言相向。

21.不能承认错误,是因为缺乏自信

阅读全文 »

[转]看懂信息检索和网络数据挖掘领域论文的必备知识总结(练级步骤)

转载自Xianling Mao的文章

原文地址:http://blog.csdn.net/xianlingmao/article/details/7667042

信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结

引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。

我所处的领域是关于网络数据的处理(国际会议WWW, SIGIR, CIKM, WSDM, ACL, EMNLP,等)

我列了一个我自己认为的在我们这个领域常常遇到的模型或者技术的列表,希望对大家节省时间有所帮助:

1. 概率论初步

主要常用到如下概念:初等概率定义的三个条件,全概率公式,贝叶斯公式,链式法则,常用概率分布(Dirichlet 分布,高斯分布,多项式分布,玻松分布m)

虽然概率论的内容很多,但是在实际中用到的其实主要就是上述的几个概念。基于测度论的高等概率论,几大会议(www,sigir等等)中出现的论文中基本都不会出现。

2. 信息论基础

主要常用的概念:熵,条件熵,KL散度,以及这三者之间的关系,最大熵原理,信息增益(information gain)

3. 分类

朴素贝叶斯,KNN,支持向量机,最大熵模型,决策树的基本原理,以及优缺点,知道常用的软件包

4. 聚类

非层次聚类的K-means算法,层次聚类的类型及其区别,以及算距离的方法(如single,complete的区别a),知道常用的软件包

阅读全文 »

[读书笔记]如何在大学里脱颖而出

一般来说这种书名的书我是不太会看的,以前我总固执地认为这类书都是废话满篇、堆砌字数、说的都是人人都懂的大道理毫无任何实际意义。但是这次主要是因为亚马逊做活动,我为了凑单在特价书中闲逛,看到这本书好评率挺高而且价格正好能凑够我的单子,而且我脑子当时也是稍微一热,想看看我到底和所谓的好学生差在哪里才,才买了这本书。

书小而薄,但是翻了翻目录就把我给钩住了,确实是本好书,我和所谓的优等生的差距真不是一星半点,但最关键的还是输在了意识上。

以下为书中一些对我有所帮助的观点摘要:

摘要

对万事万物都心存疑问

围绕远大计划展开行动

做到高于教授要求的标准,并添加更多的任务以表示你的确对它满怀好奇。

尽快投身于研究之中(自己要想方设法创造机会和条件)

阅读全文 »

[读书笔记]我和爷爷熊庆来

摘录

尝试背诵外语名著,应该是个学习外语的好方法。

勿浪抛分寸光阴。

要尊重年轻的人才,他们没有旧的框框,有很多新思想。

不是背你讲的课,而是不断地问你问题,追根问到底。

如果我是一个数学家,要来讨论一个问题,我要注意几个方面?

熟读唐诗三百首,不会作诗也会吟。

你没有好好看前言,又没有研究一下书的目录,你在学习时,当然会觉得乱。

[Project]学术论文推荐系统

这是我们在11年数据挖掘课(导师:刘莹)和信息检索课(导师:王斌)的联合期末Project,因为这两门课程的要求有些焦急,所以在求得两位任课老师同意的情况下,我们开始把两门课程里学到的知识融合在了一个项目里,我在这个项目上还是颇费了些心思的。

I.任务概述

如何能够有目标地、有选择地、正确地利用学习资源是一个亟待解决的问题。目前研究生选择课程的随意性高,质量难以预测,而且费时费力。而目前流行的推荐系统,大多依靠用户的输入或者长期的兴趣,不能及时准确地感知学生的学习意图。因此,学习意图感知和推荐系统是提高研究生培养水平的一个重要手段。此系统通过信息检索和数据挖掘等技术将学术资源进行有效地管理,利用数据挖掘技术捕获或预测每位学习者的学习意图和兴趣,主动地向学习者推荐与其兴趣相关的课程资源。这样,可以提高信息的到达率,提高学习者在网络环境下学习的质量。

II.系统总体架构

示意图

阅读全文 »

[读书笔记]推荐系统实践

最近读完了项亮的这本《推荐系统实践》,这本书算得上是一个review,比较宽泛地介绍了近年来推荐系统方面的一些知识点,现在我准备从头再细细回味一遍,梳理出书中的一些知识点以便我日后记忆。

推荐系统的最终目标是解决信息过载这个问题,方便用户,同时争取使得长尾的尾巴不要那么长,争取把一些小众的不太为众人所知的东西推荐给有潜在需求的用户。

I. 目前用上推荐的一些场景:

(1)电子卖场

例如Amazon, Taobao, …

(2)娱乐/休闲产业

  • 推荐视频(Youtube, Hulu, Youku, Tudou, …)

  • 推荐音乐(lastFM, 豆瓣音乐)

  • 推荐美食

  • 推荐文章

(3)社交

  • 推荐好友

  • 广告营销

  • 其中我个人认为就以上几点中美食推荐仍具有非常大的潜力,推荐美食可以通过很多种不同的方式来进行,可以通过社交好友,可以通过食客点评,还可以配上地理位置进行精确推荐。

阅读全文 »

[Project]单标签文本分类(基于EMI)

这是上学期自然语言处理课程(宗成庆老师的课哟)的期末项目(详细的实验报告可以点我!)

1.实现思路

在训练样本中,先用特征选择算法提取出文档的特征,再在初始特征集上求其子集,最后依靠所求得的特征值对新文档进行计算求其分类。

2.实现方法

本实验采用EMI(Expect Mutual Information, 期望互信息)算法对训练语料进行特征选择,并使用它作为评判文档分类的依据,EMI 的形式化定义如下:

Excepted Mutual Information:

$$I(T, C) = \sum_{e_t\subset{\{1,0\}}} \sum_{e_c\subset{\{1,0\}}} P(T = e_t, C = e_c) \log_{2} \frac{P(T = e_t, C = e_c)} {P(T = e_t)P(C = e_c)}$$

其中T是一个二值随机变量,当文档包含词项t时,$e_t = 1$,否则$e_t = 0$;

C亦是一个二值随机变量,当文档属于类别c是$e_c = 1$,否则$e_c = 0$;

EMI在判断某个词项与文档是否相关方面有很好的表现,而传统的朴素贝叶斯方式在计算特征值方面却显得有些单薄,因为文档中可能会存在某些很少出现,但是归属性特别强的特征,比如有文档中有单词’Tibet’,这个单词虽然在文档集中不常出现,但如果一旦出现就必然是和属性CHINA类相关,而朴素贝叶斯却不会注意这种小众特征。 以EMI的方式来确认词项的特征值,它的好处是能够突出某个典型却不常出现词项的特征值。

不过单纯使用EMI方法只能判断单词和类别之间的相关度,但是并不能判断是正相关还是负相关,比如我们的文档集中有2个文档

1
2
d1 = {”Chinese”, China}
d2 = {”Japanese”, Japan}

根据EMI算法中各项的对称性,会得出I(T = Chinese, C = China) = I (T = Chinese, C = Japan) = 1,

而明显可以看出词项”Chinese”和类别Japan应该是负相关的,因此需要借助于传统的互信息(Mutual Information)来判断词项和类别的正负相关性。只留下正相关的特征,而负相关的特征丢弃。MI的形式定义如下:

Mutual Information:

$$I(t,c) = P(t,c)log_2 \frac{P(t,c)}{P(t)P(c)}$$

求得初始特征集后,采用BIF(Best Individual Features)算法求出最优特征,这样整个训练过程就结束了。

3.过程纲要

I.训练过程:

1.首先遍历所有训练样本,将所遇到的单词存入一个词典中,同时计算这个单词出现的文档频率(document frequency, df)

2.根据EMI算法每个单词和每种类别的关联程度,如果关联程度大于之前设定的一个阈值,则再计算这个单词和这个属性是正相关还是负相关,最后只留下正相关的加入原始特征集中。

3.用BIF求出几个最显著的特征作为对应分类的最终特征(即简单选取n个特征值最高的特征最为最终的特征,其他舍去)。

II.分类过程

1.依次读入文章中的单词(重复的单词不加入计算,直接跳过),将出现的特征单词依次记下并累加。

2.扫描完成后对几个分类中的特征值累加和进行比较,取最大的作为该文章的分类。

4.意外收获

在做特征选择的过程中,我偶然发现可以将EMI方法用于自动挖掘停用词(Stop words),当单词的EMI值低于某个阈值的时候,便可以考虑将它看作停用词。

5.参考资料

主要来自于:

  1. Christopher D. M Prabhakar Raghavan and Hinrich Schutze. Introduction to Information Retrieval. Cambridge University Press 2008.

  2. Battiti, R.: Using Mutual Information for Selecting Features in Supervised Neural Net Learning. IEEE Trans. Neural Networds 5(1994) 537-550.

我的LaTeX中文模板

常言道,手有模板,心中不慌。以下就是我提炼出来的$LaTeX$中文模板。

阅读全文 »