web数据挖掘(学习笔记)-观点挖掘
观点挖掘
1.主要挖掘非结构化的文本,涉及自然语言处理技术
网络已经深刻地改变了人类群体传播观念的途径,在这种变革下UGC内容已经成为了一种独特的存在形式
主要包含三个方面的内容:意见分类;基于特征提取的观点分析及摘要生成;研究比较句法及其语义关系的构建
4.意见划分:按层次进行划分, 将评价分为正面或负面两类。目前大部分研究集中在对文本进行层次化处理。
5.以特定特征为基础进行观点挖掘与摘要:在句子层次上进行分类处理。对于对象中的某个具体特征而言,在其特性评价中将其归类为正面或负面
6.比较句子和比较关系挖掘:抽取比较句子,然后,抽取比较关系
7.主要研究两方面观点挖掘任务:观点搜索;观点欺诈
8.观点搜索:关于任何对象的观点
9.观点欺诈:推销自己,诋毁对手的不实信息
10.意见分类:文档集合中的每一个文档都被标注为积极评价或消极评价。与文本主题分类相仿,在关注的词汇上存在差异。
词汇,意见分类关注意见词汇。可以分为正面,负面,中立三类。
针对意见的三类分法:一种是依据意见短语进行分类;另一种是按照文本类型的方法开展;第三种则是根据评分函数进行划分
采用情感标签分类法:运用词类标记的自然语言处理技术。通常使用宾州树库作为标准的词性标注集合。分为三个步骤依次进行:首先是进行词类标记;接着是抽取预设的情感标签;最后是完成整个流程。
典型的短语模式;接着计算各短语之间的互信息;具体而言,在左词出现时(即作为前项),右词随之出现的概率是其条件概率;最后则通过计算所有短语在不同上下文中的倾向性平均值来确定整体的趋势。
正,就是正面评价,负数就是负面评价。
13.文本分类方法分类:KNN,贝叶斯,SVM文档分类方法都可以。
采用评分函数作为分类依据:构建一个能够显著反映次要相关文档集合倾向性的评分函数。为了确保实验的全面性,在不同数据集上进行评估。首先选取每个文档的词干内容,并通过移除高频常见词汇来优化特征向量。
,各种分类技术对比,换评分函数,语言学改进等。
15.基于文档分类的优点:体现对象,主题的一般看法
基于文档分类存在的不足之处在于其仅能反映出总体观点,并无法深入揭示细节特征上的偏向性;对于不涉及评析但又包含意见的文本,则不应作为本方法的应用对象
深入分析意见句子的形成过程
相关的词典。
参考文献:《Web数据挖掘》 BingLiu著 P296-300
