9月 25

EMNLP09-12 Sentiment 枚举

Review Sentiment Scoring via a Parse-and-Paraphrase Paradigm
这篇文章主要是为了计算一个得分来表示sentiment的程度。为了计算程度,要把副词算上。他用了一个别人的parser,这个parser好像是一种特殊的parse方法。
 
Adapting a Polarity Lexicon using Integer Linear Programming for Domain-Specific Sentiment Classification
Integer Linear Programming 整数线性规划,连续看了两篇文章,虽然不懂,但是记一下。
 
Using Morphological and Syntactic Structures for Chinese Opinion Analysis
无借鉴意义
 
Phrase Dependency Parsing for Opinion Mining
感觉这个文章做得蛮细的,虽然idea只是phrase level,不过如果后面没有tree kernel装点门面,估计是不行的。感觉是个好文。
 
———————————- 神奇的分割线,以下EMNLP 2010 ———————————-
 
Multi-level Structured Models for Document-level Sentiment Classification
这个是篇非常好的文章,讲得很清楚明白,可惜还是看不懂…… 本文的idea是利用句子级别的情感来帮助文档级别的情感分类,这个是相对于传统的把一个文档看成是词袋而言的。在传统词袋方法中,特征是flat的,而本文加入句子级别之后,就有了一个层级的特征。同时据称他直接针对文档的情感分类优化,而只是把句子的情感分类当作隐含变量,这样就有如下好处:1)不需要对训练数据中的句子进行情感正负类标注。2)可以摆脱句子情感分类错误对文档分类的影响。
好文!实在是好文!只可惜我没这功底学不来。另外作者还公布了个工具,记录一下,或许以后有用:http://projects.yisongyue.com/svmsle/
 
———————————- 神奇的分割线,以下EMNLP 2011 ———————————-
 
Domain-Assisted Product Aspect Hierarchy Generation: Towards Hierarchical Organization of Unstructured Consumer Reviews
这文章比较一般,没看出啥好东西来,也就学个Hierarchical。
这里有句话很重要,It has been shown that simply extracting the frequent noun terms from the Pros and Cons reviews can get high accurate aspect terms (Liu el al., 2005). 这句话以后或许可以用,比如抽取一些初始的aspect。
 
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions
作者中有Eric H. Huang, Andrew Y. Ng, Christopher D. Manning,皆大牛也!这种文章看了对我来说也没啥帮助,咱没那功底。神奇的是文章里有一点显而易见的小错误,$y_3\to x_1y_2$被写成了$y_1\to x_1y_2$,这种下标写错了似乎不该
2013@3@22 我改变看法了,在Deep Learning大行其道的今天,应该了解这个~
 
Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities
用了discourse的信息。不知道discourse到底干嘛的,这方向和我们真的完全不相干了。看这文章里分析句子的成分,把从句分成Contrast(although, but, however), Condition (if, if & then)等等这些五个类别,然后去情感分类。看起来对我而言没啥借鉴意义。
 
Structural Opinion Mining for Graph-based Sentiment Representation
这篇文章又用了ILP,就不仔细看了。这里提的问题不错,就是当前语境中的限制条件,这是一个值得注意的点。比如Very poor picture quality at night这句里面,at night是限制条件,只有在这个条件下,才是very poor picture quality
9月 14

ACL09-12 Sentiment 枚举

———————————- 神奇的分割线,以下ACL2007———————————-
 
PageRankingWordNet Synsets: An Application to Opinion Mining
这篇文章被接受为长文,已经超出了我的理解范围。实在看不出有啥创新或好在哪里!
 
Structured Models for Fine-to-Coarse Sentiment Analysis
这篇文章主要讲述了如下model,主要是sentence之间的条件概率关系和整个doc和所有sentence之间的关系。
如果要做doc level的情感分类的话,我觉得应该是个好的baseline以及related work。
它里面整个fine-to-coarse的意思就是既要对sentence情感分类,又要对doc进行情感分类,这种提法可以引用。
 
 
———————————- 神奇的分割线,以下ACL2009 ———————————-
 
Co-Training for Cross-Lingual Sentiment Classification
万小军老师的文章,核心思想是由于中文缺乏训练预料,就利用英文的丰富标注语料来进行中文Sentiment Classification。这个思想在当年应该还是较新的,现在已经很常见了。现在如果只有单个这样的idea(用英文语料训练中文)恐怕是不行了。
 
A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge
这个太机器学习了,看不懂。不知道这个和NMF有啥关系。
 
Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification
本文的思想和我这次搞的论文很类似,不过他总结的很好,就是Mine the Easy, Classify the Hard。之前经常听说“谱聚类”,但是也没去了解到底是啥玩意,今天第一次看到了用谱聚类的论文。it is well-known that k-means has the major drawback of not being able to separate data points that are not linearly separable in the given feature space (e.g, see Dhillon et al. (2004)). 谱聚类就是要解决线性不可分的k-means,通过两步,1) 把高维空间映射到低维空间同时保留尽可能多的原始信息; 2) 在低维空间中聚类。看完这篇,觉得这思想的确不错~
 
Answering Opinion Questions with Random Walks on Graphs
粗看了一下,用了PageRank和HITS,至于是怎么用在QA上的,没仔细看明白。大致知道思路就行了。
 
———————————- 神奇的分割线,以下ACL2010 ———————————-
 
Identifying Text Polarity Using RandomWalks
这个好像有点水?就一个random walk…… 好像也没有说清楚要解决什么问题,本人大胆判断水文一篇。
 
Sentiment Learning on Product Reviews via Sentiment Ontology Tree
他这个Ontology是人工定义的,这篇文章套用了一个算法,不清楚这个算法的细节,不过感觉没啥启发性,中规中矩吧,算不上好文。主要一点是考虑了aspect之间的层级结构,不过我还是不太明白考虑了结构能有啥好处。
 
Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification
看完尚有一些疑问:1) 第一步中用于对句子分类personal还是impersonal的分类器的特征是啥,这个我很好奇,感觉这个特征不好选吧,如果只是词袋似乎不行…… 2) 看前面就会一直有一个疑问,为啥要把句子分为personal和impersonal,难道是为了套到co-training上面去?后来总算在实验部分分析了理由。不过感觉有些牵强,不像之前万小军老师09年那篇文章,那个co-training理由分析的很清楚。
 
Generating Focused Topic-specific Sentiment Lexicons
我觉得这个文章的思想不错,主要的思路比较简单,有两点:1)在同一篇文章中,target的diversity高于general noise:accompanying attributes such as location, time, manner。所以用熵可以选出可能的target   2)对于某个特定的topic,和这个topic相关的target的共现应该高于背景语料,所以可以用$\chi^2$统计量找出和一个topic最相关的target来。至于怎么把两个简单的思想灌水,就靠写了。related work整整撑了两页
 
A study of Information Retrieval weighting schemes for sentiment analysis
额,这个也可以?把tf_idf用起来就发了一文,我觉得超出了我的理解范围。不过这篇文章分析sentiment classify时候引用的related work 让我感觉sentiment classify的水很深,不好弄,还是搞搞其他的方向。
 
———————————- 神奇的分割线,以下ACL2011 ———————————-
 
Automatically Extracting Polarity-Bearing Topics for Cross-Domain Sentiment Classification
这个JST何瑜兰老师来我们实验室讲过,LDA也还是不懂,就不看了。
 
Using Multiple Sources to Construct a Sentiment Sensitive Thesaurus for Cross-Domain Sentiment Classification
老问题:在一个领域训练的分类器用到另一个领域可能产生问题,主要是特征不匹配。如delicious会形容食物,但是不会形容书,这样当从“书”这个领域训练的分类器遇到delicious时,就不知道它是pos还是neg。因此本文要找到词之间的情感相关性,假如我知道excellent是pos的,并且excellent和delicious相似,那么delicious也是pos的。然后在训练和分类时把delicious扩展一下,加入excellent就行了,如此即可减少mismatch。文中有一句话很重要,以后可以用:The distributional hypothesis (Harris, 1954) states that words that have similar distributions are semantically similar. 这意思就是相似的词的context应该是相似的。
 
Learning Word Vectors for Sentiment Analysis
太“模型”了,pass,pass
 
Target-dependent Twitter Sentiment Classification
本文解决两个问题:1)情感词评论的对象,就是一句话中情感词语的用来评轮的对象(情感的载体),如People everywhere love Windows & vista. Bill Gates这句话中,这里说话人love的是windows,而不是喜欢Bill Gates,ps:这句话好假!2)由于twitter的内容太短,那么找一些相关的东西来使他变长
 
———————————- 神奇的分割线,以下ACL2012 ———————————-
在会上基本看过了,等以后看到啥重要的东西再来补充吧
6月 08

Feature Engineering and Classifier Ensemble for KDD Cup 2010

台湾大学历年都是第一,今年应该也不例外,他们的论文应该是很值得借鉴的。

随手记录一下他们论文里的一些要点:

1. 关于验证集合和交叉验证。文中说由于数据集带有时间信息,因此抽取验证集合要格外小心,像交叉验证这样的方法就不太合适。因为把数据分成几份之后可能导致时间混乱,或者有关时间的特征信息被混淆。

2. 文中说要把Sparse Features 和 Condensed Features 分开,刚开始看论文时不明白这是为什么,实践了一段时间之后,现在我明白了。由于Condensed Features 会在大部分训练条目中出现,这样最后训练得到的模型中,如果Condensed Features的作用很明显的话,就会导致整个模型的性能取决于少数几个Condensed Feature而其他所有Sparse Feature的作用都被削弱。

3. 二元的特征效果会非常好。单一的Sparse特征往往表达能力不够强,把两个Sparse合并为一个,组成一个二元组,类似于bigram那样的做法,往往能比单独使用两种特征取得更好的效果。

 

另外结合几点今年KDD Cup的经验:

1. 需要优化的目标函数之间的不同导致结果性能的差异原超偶的想象。比如岭回归和SVM之间的性能差异,以及优化目标为RMSE和AUC之间的差异,都是非常得巨大!

2. 模型融合对性能的提升原超想象。呵呵,尽管单一模型的结果可能不太好,但是只要简单把几个模型的结果融合一下,得到的性能上的提升绝对令人大吃一惊!难怪台湾大学每年都是第一,人多力量大。

4月 23

【日读一文】4月 简单总结

虽然四月就要过去了,但是还是开一贴吧。以后读文,关于Machine Translation、Parser、Sentiment的一律不看,完全不相关。

4@23  【ACL'11-1005】Evaluating the Impact of Coder Errors on Active Learning

AL(Active Learning)技术好像是用来缩减人工标注的数据量的。论文里说有监督分类器对于随机的噪声数据已经不是很敏感了,但是对于数据标注者在标注时存在的系统性错误却很敏感。同样,AL算法的效果会严重受到数据标注者系统性标注错误的影响。所以貌似这篇论文的目的就是要去除这样的错误。具体细节看不明白,有点静不下心来。

4@25 【ACL'11-1009】Jigs and Lures: AssociatingWeb Queries with Structured Entities

        这篇文章的主要工作是将一个搜索引擎的query映射到可能的实体。比如query:canon eos digital camera可以被映射到一个Amazon的相机网页上,然后搜索引擎可以找到相机的属性进而推荐用户购买相机。文章是美国的微软研究院写的,Native Speeker果然强悍,虽然文章用的方法感觉很简单,Motivation感觉也很直接明了,但是作者把文章写得非常清晰,问题剖析很透彻,理解很深入,这才是专业灌水水平。文章的主要思路是,在一些垂直搜索引擎(比如商业网站Amazon的搜索引擎)中,用户的点击直接联系到用户关心的实体,因此可以通过垂直搜索引擎的query log和这些实体相关联。但是问题是垂直搜素引擎的query log很稀疏,所以不能直接用MLE的方法。作者的方法,设一个query q,它的普通搜索引擎点击URL集合为U,在垂直搜索引擎中点击的实体集合为E。则这个q到E的关系是稀疏的,但是q到U的点击关系不稀疏,因此可以通过不同q之间的U集合相似度来确定与q相似的query集合Q,然后用这些相似的Q之间的Q到E关系弥补单个q到E关系的稀疏性。至于怎么衡量q的相似度,就是一个点击向量的cos值。

另外文章提到一句话,这也是一个副Motivation:Smoothing techniques can be useful to alleviate data sparsity problems common in statistical models. 这句话要记住。此外,总结中的一句话简单明了总结了这个方法:The sparsity of query entity graphs is addressed by first expanding the graph with query synonyms, and then smoothing query-entity click counts over these unseen queries。

本文最后没有提到发展方向或者方法的可改进之处。

 

4@28 【CIKM'2011】Building Directories for Social Tagging Systems

这篇论文太无赖了,作者之前发了类似的工作在WWW上,然后一直在本文里强调In our own previous work …,竟然还强调了三次,生怕别人不知道本文作者是谁。这篇文章要做的事情是把folksonomy结构用作类别导航(类似google directory、ODP这样的东东),文章生成这样的folksonomy的好坏衡量标准是任意两个tag在folksonomy树中的距离。

文中2.1提到social networks的一个关键特性是网络中的节点只知道自己的邻居是谁,但是不知道整个网络的结构。比如社交网络中的个人只知道自己的朋友,不知道自己网络中的其他人以及那些人之间的关系。这个特性催生了一系列相似节点计算的方法,这篇文章2.1部分有介绍。

S. Milgram. The small world problem. Psychology Today这个文章要注意,已经在其他文章中看到过多次了。

Pragmatic evaluation of folksonomies这篇文章中提供了多种把tag网络变成folksonomy的方法,值得注意。

3月 22

【JMLR’03】Latent Dirichlet Allocation (LDA)- David M.Blei

【注:本文为原创】

若公式显示有问题请复制链接到新TAB重新打开

听说国外大牛都认为LDA只是很简单的模型,吾辈一听这话,只能加油了~

另外这个大牛写的LDA导读很不错:http://bbs.byr.cn/#!article/PR_AI/2530?p=1

一、预备知识:

       1. 概率密度和二项分布、多项分布,在这里

       2. 狄利克雷分布,在这里,主要内容摘自《Pattern Recognition and Machine Learning》第二章

       3. 概率图模型,在PRML第九章有很好的介绍

二、变量表示:

      1. word:word是最基本的离散概念,在自然语言处理的应用中,就是词。我觉得比较泛化的定义应该是观察数据的最基本的离散单元。word的表示可以是一个V维向量v,V是所有word的个数。这个向量v只有一个值等于1,其他等于0。呵呵,这种数学表示好浪费,我以前做过的项目里一般中文词在200-300w左右,每一个都表示成300w维向量的话就不用活了。哈哈,所以真正应用中word只要一个编号表示就成了。

     2. document:一个document就是多个word的合体。假设一篇文档有N个词,这些word是不计顺序的,也就是exchangeable的,LDA论文 3.1有说这个概念。论文中document的个数是M。

     3. topic:就是主题啦,比如“钱”的主题可能是“经济”,也可能是“犯罪”~ LDA中主题的表示是隐含的,即只预先确定主题的个数,而不知道具体的主题是什么。论文中表示主题个数的字母是k,表示主题的随机变量是z。

好了,总结一下所有的变量的意思,V是所有单词的个数(固定值),N是单篇文档词的个数(随机变量),M是总的文档的个数(固定值),k是主题的个数(需要预先根据先验知识指定,固定值)。

Continue reading

2月 17

【2010'COLING】FactRank: RandomWalks on a Web of Facts

      这篇文章的motivation是when two fact instances from two relations share the same value for a shared argument type, then the validity of both facts should be increased. Conversely, we also hypothesize that an incorrect fact instance will tend to match a shared argument with other facts far less frequently.

 

他下面举了一个例子:

t1: acted-in<Psycho, Anthony Perkins>

t2: *acted-in<Walt Disney Pictures, Johnny Depp>

t3: director-of<Psycho, Alfred Hitchcock>

t4: is-actor<Anthony Perkins>

因为t3中提到Psycho是电影,所以t1的证据被加强了,同时t4提到Anthony Perkins是一个演员,因此t1的证据也被加强了,另一方面,t1也加强了t3和t4的证据。相比之下t2是错误的,所以提到的fact就要少了。所以这个过程可以由Random Walk进行建模。真是一个好idea!!

 

后面的方法就是改改PageRank,实验只做了Movie领域的,感觉有点少,但是idea不错