4月 23

【日读一文】4月 简单总结

虽然四月就要过去了,但是还是开一贴吧。以后读文,关于Machine Translation、Parser、Sentiment的一律不看,完全不相关。

4@23  【ACL'11-1005】Evaluating the Impact of Coder Errors on Active Learning

AL(Active Learning)技术好像是用来缩减人工标注的数据量的。论文里说有监督分类器对于随机的噪声数据已经不是很敏感了,但是对于数据标注者在标注时存在的系统性错误却很敏感。同样,AL算法的效果会严重受到数据标注者系统性标注错误的影响。所以貌似这篇论文的目的就是要去除这样的错误。具体细节看不明白,有点静不下心来。

4@25 【ACL'11-1009】Jigs and Lures: AssociatingWeb Queries with Structured Entities

        这篇文章的主要工作是将一个搜索引擎的query映射到可能的实体。比如query:canon eos digital camera可以被映射到一个Amazon的相机网页上,然后搜索引擎可以找到相机的属性进而推荐用户购买相机。文章是美国的微软研究院写的,Native Speeker果然强悍,虽然文章用的方法感觉很简单,Motivation感觉也很直接明了,但是作者把文章写得非常清晰,问题剖析很透彻,理解很深入,这才是专业灌水水平。文章的主要思路是,在一些垂直搜索引擎(比如商业网站Amazon的搜索引擎)中,用户的点击直接联系到用户关心的实体,因此可以通过垂直搜索引擎的query log和这些实体相关联。但是问题是垂直搜素引擎的query log很稀疏,所以不能直接用MLE的方法。作者的方法,设一个query q,它的普通搜索引擎点击URL集合为U,在垂直搜索引擎中点击的实体集合为E。则这个q到E的关系是稀疏的,但是q到U的点击关系不稀疏,因此可以通过不同q之间的U集合相似度来确定与q相似的query集合Q,然后用这些相似的Q之间的Q到E关系弥补单个q到E关系的稀疏性。至于怎么衡量q的相似度,就是一个点击向量的cos值。

另外文章提到一句话,这也是一个副Motivation:Smoothing techniques can be useful to alleviate data sparsity problems common in statistical models. 这句话要记住。此外,总结中的一句话简单明了总结了这个方法:The sparsity of query entity graphs is addressed by first expanding the graph with query synonyms, and then smoothing query-entity click counts over these unseen queries。

本文最后没有提到发展方向或者方法的可改进之处。

 

4@28 【CIKM'2011】Building Directories for Social Tagging Systems

这篇论文太无赖了,作者之前发了类似的工作在WWW上,然后一直在本文里强调In our own previous work …,竟然还强调了三次,生怕别人不知道本文作者是谁。这篇文章要做的事情是把folksonomy结构用作类别导航(类似google directory、ODP这样的东东),文章生成这样的folksonomy的好坏衡量标准是任意两个tag在folksonomy树中的距离。

文中2.1提到social networks的一个关键特性是网络中的节点只知道自己的邻居是谁,但是不知道整个网络的结构。比如社交网络中的个人只知道自己的朋友,不知道自己网络中的其他人以及那些人之间的关系。这个特性催生了一系列相似节点计算的方法,这篇文章2.1部分有介绍。

S. Milgram. The small world problem. Psychology Today这个文章要注意,已经在其他文章中看到过多次了。

Pragmatic evaluation of folksonomies这篇文章中提供了多种把tag网络变成folksonomy的方法,值得注意。