基于文本挖掘的菊花诗词评论情感分析研究【字数:9101】
目录
目录
摘要 IV
引言
现在互联网年代飞速发展,我们逐步步入了信息大爆炸的年代,在这个信息庞杂的年代,越来越多的用户能够经过网络平台对自己喜欢的内容发表评论和主意,但是紧接着带来的的则是日积月累的庞大数据,这些像爆炸一样疯狂增加的数据当中蕴含着很多的信息,为了方便研究者们进行舆情剖析以及热门检测等重要的研究,将有价值的信息抽取出来便显得尤为重要。
一.绪论
1.1研究的背景与意义
中国有着悠久的菊花文化,许多名人墨客都曾以菊花为题材创作了无数古今流传的名作,其中与菊花有关的诗词也是多如繁星。而读者在阅读菊花相关题材的诗词时,往往没有那么多的精力通读所有的诗词。本课题以网络上用户对诗词的鉴赏为切入点,尝试提取鉴赏中的情感信息,对诗词以及读者的观点,倾向和情感有一定的了解。其目的在于节省用户的时间,帮助用户更有效率的通读诗词。
1.2研究现状
文本情感分析属于自然语言处理的范畴,通俗来说是为了找出说话者在某个话题上或针对一个文本的两极的观点的态度。目前国内外的研究可以大致分为语料库构建方法以及机器学习方法。
(1)语料库构建方法
1998年,Whissell[1] 邀请了148名受试者参加试验,要求他们对数学,物理学,生物学,电视(指电器)中的术语给予一定的附加单词来描述用,接着将其与情感词典中使用频率较高的情感词进行匹配。在之后的很长一段时间,众多学者都对如何完善情感词典进行了研究并作出了一定的贡献。 比如Whissell[2] 为了让现有的情感词典更加实用对其进行修改,使其适用于更多的领域。由于情感词典的研究在国外的研究周期较长,导致英文资源相较于中文资源丰富且成熟,而中文词典内容较为匮乏。因此李寿山等[3]借助机器对国外的英文词典进行翻译,通过本土化的调整形成了中文情感词典。以上学者研究的情感词典属于最基础的情感词典,在研究过程中他们将词频较高的词语作为备选的情感词,将其与现有的情感词典进行一一比对,通过计算正面词和负面词各自出现的频率来判断情感极性。
但是,这种最基础的情感词典不够全面,无法根据现实场景进行调整,也无法对同义词,近义词等,并且最重要的是无法在这个过程中实现自动化 *51今日免费论文网|www.51jrft.com +Q: ¥351916072$
识别,效率较低。阳爱民等[4]将若干个情感词作为情感种子词,将返回的共现数作为依据构建了情感词典,减少由于语境迁移对旧词新用的影响。Rao等[5]提出了一种有效算法,用来实现自动构建社交情感检测词典,其中实现了三种删减策略。语料库的构建的研究相对于情感词典来说要更晚一些。目前研究所使用的语料库,都是从网络上采集得到的语料,可以分为两类,标注语料库以及原始语料库。例如由 NRRC Summer Workshop主持开发的MPQA 库,相对来说是较早的语料库。Quan[6]等人从三个层次进行标记,并以此为基础构建了语料库。在情感语料库的构建工作上我国的学者也投入了相当多的精力,如清华大学学者,标记了有关各地景点的语料[7],上海交通大学宋鸿彦[8]等人构建了一个中文意见型注释语料库。大连理工大学的徐琳宏[9]等人构建了一个关于社会上存在的文本书籍的语料库。国立台湾大学的古伦维[10]等人构建出了一个能够用于意见提取的语料库。
(2)机器学习方法
十九世纪初期,学习被认为是一种人类独有的一种智能行为,但是传统的观念是用来打破的,通过人们的不懈努力,计算机也可以通过代码实现类似人类学习的功能,也就是机器学习。机器学习在自然语言处理的领域具有明显的优势,与先前学者研究的完全依赖人工构建情感词典的方法相比,采用机器学习既能同时处理数以亿计的庞大的数据,又能有效的解放劳动力,并且可以根据需求按时更新数据。根据机器学习的种类,可以分为强监督的机器学习和弱监督的机器学习进行介绍。
强监督的机器学习
在机器学习方法中常用的监督学习方法有朴素贝叶斯NB和支持向量机SVM等。但是技术是不断在更新的,有研究指出,NB和SVM在单独使用时分别会面临独立条件假设和核函数选择方面的问题。因此不少学者开始对现有的算法进行研究,找出改善的方法。Sharma等[11]利用了Boosting的分类性能,同时使用SVM作为基础分类器,并与单独使用SVM分类器做对比,研究结果表明,集成分类器在各项性能上明显优于单独使用SVM 分类器。唐晓波等[12]为了实现了文本情感强度的可视化,提出了一种基于AdaBoost集成技术的回归SVM 情感分类模型。Manek等[13]提出了基于基尼指数的支持向量机分类器的特征选择方法。
机器学习的两个核心的问题是:如何从杂乱的特征中提取出有用的内容以及怎么抽取出具有决定性要素的特征。在运用机器学习进行文本分类的过程中,特征提取和特征抽取是两个至关重要的步骤。现有一些常用的文本特征选择方法,例如卡方检验、信息增益、MI等。Ahmed 等[14]提出了FRN多元文本特征选择算法。Wang等[15]使用MI、卡方检验,WFO来选择特征。上述介绍的方法大多只关注了词汇特征或句法特征,往往忽略了语义特征。
弱监督的深度学习方法
RNN属于已经在自然语言处理中广泛应用属于深度学习中常用的网络模型之一。 RNN 网络模型是指循环神经网络,是一种时刻序列的模型,但 RNN也可指代递归神经网络,是一种注重结构层次的网络模型。刘金硕等[16]有效地联合上层循环神经网络和下层递归神经网络,检验结果证明可以有效提高分类器的正确率。谢铁等[17]利用深度递归神经网络算法来捕获句子语义信息,并引入情感训练树图资料库作为训练数据来发现词语情感信息。在进行文本情感分析任务时,多数使用的数据库是评论类的短文本数据库,传统特征抽取方法准确率较低。Sun等[18]将深度信念网络和特征抽取方法结合得到拓展特征抽取方法。
二.中文文本情感分析相关技术
2.1文本搜集与预处理
与英文文本情感分析研究相比,中文文本的情感分析研究起步较晚,已标注的可以直接使用的中文情感分析语料较为匮乏。本节主要实现了从互联网上获取菊花诗词鉴赏文本,并对其进行预处理,从而得到后续研究需要的语料。评论文本的获取主要是使用爬虫技术从国内几个知名的诗词网站爬取菊花相关诗词的注释及赏析文本。数据的预处理包括文本清洗,中文分词和去停用词,文本的标注。
原文链接:http://www.jxszl.com/jsj/xxaq/606978.html