4月 23

opinion 有用的素材

1.Identifying Noun Product Features that Imply Opinions

这个文章抽取名词opinion word。第一段列了一大片引用,当要强调opinion word的重要性时可以找这个~ 第二段列了一大片已有的抽取opinion word的方法。

 

可用的现成opinion word集合

Identifying Noun Product Features that Imply Opinions里面用的是Lexicon-Based Approach to Opinion Mining

 

Bing Liu 的 Sentiment Analysis and Opinion Mining可以在写related work的时候拿来抄抄

9月 25

EMNLP09-12 Sentiment 枚举

Review Sentiment Scoring via a Parse-and-Paraphrase Paradigm
这篇文章主要是为了计算一个得分来表示sentiment的程度。为了计算程度,要把副词算上。他用了一个别人的parser,这个parser好像是一种特殊的parse方法。
 
Adapting a Polarity Lexicon using Integer Linear Programming for Domain-Specific Sentiment Classification
Integer Linear Programming 整数线性规划,连续看了两篇文章,虽然不懂,但是记一下。
 
Using Morphological and Syntactic Structures for Chinese Opinion Analysis
无借鉴意义
 
Phrase Dependency Parsing for Opinion Mining
感觉这个文章做得蛮细的,虽然idea只是phrase level,不过如果后面没有tree kernel装点门面,估计是不行的。感觉是个好文。
 
———————————- 神奇的分割线,以下EMNLP 2010 ———————————-
 
Multi-level Structured Models for Document-level Sentiment Classification
这个是篇非常好的文章,讲得很清楚明白,可惜还是看不懂…… 本文的idea是利用句子级别的情感来帮助文档级别的情感分类,这个是相对于传统的把一个文档看成是词袋而言的。在传统词袋方法中,特征是flat的,而本文加入句子级别之后,就有了一个层级的特征。同时据称他直接针对文档的情感分类优化,而只是把句子的情感分类当作隐含变量,这样就有如下好处:1)不需要对训练数据中的句子进行情感正负类标注。2)可以摆脱句子情感分类错误对文档分类的影响。
好文!实在是好文!只可惜我没这功底学不来。另外作者还公布了个工具,记录一下,或许以后有用:http://projects.yisongyue.com/svmsle/
 
———————————- 神奇的分割线,以下EMNLP 2011 ———————————-
 
Domain-Assisted Product Aspect Hierarchy Generation: Towards Hierarchical Organization of Unstructured Consumer Reviews
这文章比较一般,没看出啥好东西来,也就学个Hierarchical。
这里有句话很重要,It has been shown that simply extracting the frequent noun terms from the Pros and Cons reviews can get high accurate aspect terms (Liu el al., 2005). 这句话以后或许可以用,比如抽取一些初始的aspect。
 
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions
作者中有Eric H. Huang, Andrew Y. Ng, Christopher D. Manning,皆大牛也!这种文章看了对我来说也没啥帮助,咱没那功底。神奇的是文章里有一点显而易见的小错误,$y_3\to x_1y_2$被写成了$y_1\to x_1y_2$,这种下标写错了似乎不该
2013@3@22 我改变看法了,在Deep Learning大行其道的今天,应该了解这个~
 
Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities
用了discourse的信息。不知道discourse到底干嘛的,这方向和我们真的完全不相干了。看这文章里分析句子的成分,把从句分成Contrast(although, but, however), Condition (if, if & then)等等这些五个类别,然后去情感分类。看起来对我而言没啥借鉴意义。
 
Structural Opinion Mining for Graph-based Sentiment Representation
这篇文章又用了ILP,就不仔细看了。这里提的问题不错,就是当前语境中的限制条件,这是一个值得注意的点。比如Very poor picture quality at night这句里面,at night是限制条件,只有在这个条件下,才是very poor picture quality
9月 14

ACL09-12 Sentiment 枚举

———————————- 神奇的分割线,以下ACL2007———————————-
 
PageRankingWordNet Synsets: An Application to Opinion Mining
这篇文章被接受为长文,已经超出了我的理解范围。实在看不出有啥创新或好在哪里!
 
Structured Models for Fine-to-Coarse Sentiment Analysis
这篇文章主要讲述了如下model,主要是sentence之间的条件概率关系和整个doc和所有sentence之间的关系。
如果要做doc level的情感分类的话,我觉得应该是个好的baseline以及related work。
它里面整个fine-to-coarse的意思就是既要对sentence情感分类,又要对doc进行情感分类,这种提法可以引用。
 
 
———————————- 神奇的分割线,以下ACL2009 ———————————-
 
Co-Training for Cross-Lingual Sentiment Classification
万小军老师的文章,核心思想是由于中文缺乏训练预料,就利用英文的丰富标注语料来进行中文Sentiment Classification。这个思想在当年应该还是较新的,现在已经很常见了。现在如果只有单个这样的idea(用英文语料训练中文)恐怕是不行了。
 
A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge
这个太机器学习了,看不懂。不知道这个和NMF有啥关系。
 
Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification
本文的思想和我这次搞的论文很类似,不过他总结的很好,就是Mine the Easy, Classify the Hard。之前经常听说“谱聚类”,但是也没去了解到底是啥玩意,今天第一次看到了用谱聚类的论文。it is well-known that k-means has the major drawback of not being able to separate data points that are not linearly separable in the given feature space (e.g, see Dhillon et al. (2004)). 谱聚类就是要解决线性不可分的k-means,通过两步,1) 把高维空间映射到低维空间同时保留尽可能多的原始信息; 2) 在低维空间中聚类。看完这篇,觉得这思想的确不错~
 
Answering Opinion Questions with Random Walks on Graphs
粗看了一下,用了PageRank和HITS,至于是怎么用在QA上的,没仔细看明白。大致知道思路就行了。
 
———————————- 神奇的分割线,以下ACL2010 ———————————-
 
Identifying Text Polarity Using RandomWalks
这个好像有点水?就一个random walk…… 好像也没有说清楚要解决什么问题,本人大胆判断水文一篇。
 
Sentiment Learning on Product Reviews via Sentiment Ontology Tree
他这个Ontology是人工定义的,这篇文章套用了一个算法,不清楚这个算法的细节,不过感觉没啥启发性,中规中矩吧,算不上好文。主要一点是考虑了aspect之间的层级结构,不过我还是不太明白考虑了结构能有啥好处。
 
Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification
看完尚有一些疑问:1) 第一步中用于对句子分类personal还是impersonal的分类器的特征是啥,这个我很好奇,感觉这个特征不好选吧,如果只是词袋似乎不行…… 2) 看前面就会一直有一个疑问,为啥要把句子分为personal和impersonal,难道是为了套到co-training上面去?后来总算在实验部分分析了理由。不过感觉有些牵强,不像之前万小军老师09年那篇文章,那个co-training理由分析的很清楚。
 
Generating Focused Topic-specific Sentiment Lexicons
我觉得这个文章的思想不错,主要的思路比较简单,有两点:1)在同一篇文章中,target的diversity高于general noise:accompanying attributes such as location, time, manner。所以用熵可以选出可能的target   2)对于某个特定的topic,和这个topic相关的target的共现应该高于背景语料,所以可以用$\chi^2$统计量找出和一个topic最相关的target来。至于怎么把两个简单的思想灌水,就靠写了。related work整整撑了两页
 
A study of Information Retrieval weighting schemes for sentiment analysis
额,这个也可以?把tf_idf用起来就发了一文,我觉得超出了我的理解范围。不过这篇文章分析sentiment classify时候引用的related work 让我感觉sentiment classify的水很深,不好弄,还是搞搞其他的方向。
 
———————————- 神奇的分割线,以下ACL2011 ———————————-
 
Automatically Extracting Polarity-Bearing Topics for Cross-Domain Sentiment Classification
这个JST何瑜兰老师来我们实验室讲过,LDA也还是不懂,就不看了。
 
Using Multiple Sources to Construct a Sentiment Sensitive Thesaurus for Cross-Domain Sentiment Classification
老问题:在一个领域训练的分类器用到另一个领域可能产生问题,主要是特征不匹配。如delicious会形容食物,但是不会形容书,这样当从“书”这个领域训练的分类器遇到delicious时,就不知道它是pos还是neg。因此本文要找到词之间的情感相关性,假如我知道excellent是pos的,并且excellent和delicious相似,那么delicious也是pos的。然后在训练和分类时把delicious扩展一下,加入excellent就行了,如此即可减少mismatch。文中有一句话很重要,以后可以用:The distributional hypothesis (Harris, 1954) states that words that have similar distributions are semantically similar. 这意思就是相似的词的context应该是相似的。
 
Learning Word Vectors for Sentiment Analysis
太“模型”了,pass,pass
 
Target-dependent Twitter Sentiment Classification
本文解决两个问题:1)情感词评论的对象,就是一句话中情感词语的用来评轮的对象(情感的载体),如People everywhere love Windows & vista. Bill Gates这句话中,这里说话人love的是windows,而不是喜欢Bill Gates,ps:这句话好假!2)由于twitter的内容太短,那么找一些相关的东西来使他变长
 
———————————- 神奇的分割线,以下ACL2012 ———————————-
在会上基本看过了,等以后看到啥重要的东西再来补充吧