学术不端事件中的web用户情感演化研究【字数:12913】
目录
摘要 I
关键词 I
ABSTRACT II
KEY WORDS II
一、情感演化分析研究现状 1
(一)网络舆情情感分析研究现状 1
(二)网络舆情生命周期理论研究现状 2
二、学术不端行为的概念及类型 3
(一)学术不端的概念界定 3
(二)学术不端的类型 3
三、学术不端事件用户情感演化模型方法概述 4
(一)网络爬虫 4
(二)中文文本处理方法 4
(三)朴素贝叶斯分类器 4
(四)舆情生命周期划分理论 5
四、学术不端事件用户情感演化分析模型建立 5
(一)数据获取 6
(二)数据预处理 6
(三)文本处理 7
(三)情感分类器训练及预测 7
(四)用户情感演化生命周期划分 9
五、学术不端事件用户情感演化分析 9
(一)全时段情感倾向分布规律分析 9
(二)日均情感倾向变化规律分析 10
(三)全时段情感热度规律变化分析 11
(四)各阶段情感倾向类别比重分析 12
(五)情感演化各阶段词云特征 13
六、学术不端事件用户情感演化分析研究总结 14
七、学术不端事件用户情感演化分析研究展望 14
致谢 16
参考文献 17
表4 1部分翟天临事件微博热搜榜信息 5
图4 1分词示例 7
图4 2分类器测试结果 8
图4 3部分评论情感倾向值 8
图4 4微博评论数据集全时段情感倾向分布图 9
图4 5日均情感倾向变化规律 10
图4 6全时段情感热度规律 11
图4 7情感演化各阶段情感倾向类别比重 12
图4 8情感演化各阶段词云 13
学术不端事件中的Web用户情感演化研究
摘要
本文主要对学术不端事件中的web用户情感演化进行研究。首先 *51今日免费论文网|www.51jrft.com +Q: &351916072&
对网络舆情情感分析方法、舆情演化理论的研究现状进行综述,同时界定了学术不端的概念和类型。其次研究对网络爬虫、中文分词、停用词过滤、朴树贝叶斯分类器等方法进行概述。以“翟天临被质疑学术不端”事件为例,阐释用户情感演化分析模型,利用爬虫工具获取相关微博评论数据,制定数据清洗规则,对原始数据集进行筛选和文本处理后,结合情感分类方法计算用户评论的情感倾向值和情感热度,建立用户情感演化模型。最后基于统计分析和数据可视化方法,对全时段情感倾向分布规律、日均情感倾向变化规律、全时段情感热度变化规律、各演化阶段情感倾向类别比重、各演化阶段词云特征进行了分析,得到以下结论:不同演化阶段用户情感存在一定的规律性,有助于舆情监控;情感演化阶段的特征可以用来表征舆情事件的走向,使事件主体能及时应对,扭转民众态度;学术不端事件易衍生为学术腐败,舆论影响范围更广泛,应不断加强教育引导,提高对学术不端行为的免疫力,对学术腐败持“零容忍”态度,完善学术考核制度,净化学术环境。
引言
(一)网络舆情情感分析研究现状
网络舆情分析研究内容主要包括以下两个方面:第一如何在海量数据面前,获取更有质量的网络舆情数据,为后续挖掘舆情价值提供基础;第二是对网络舆情数据进行信息管理,包括处理、分类、分析、预测等过程。上述两个研究主题涉及文本分类、WEB数据挖掘、情感倾向性分析等计算机自然语言处理技术以及基于统计学的预测分析技术。
用户情感倾向性演化生命周期是本文的研究主题,首要任务就是情感分析,使计算机可以量化各类收集到的主观性情感数据[4],达到客观分析和预测的目的。WEB环境下,互动网络模式的迅猛发展,用户逐渐深度介入各种社会现象、问题、事件的孕育、发展和变化过程中,主要表现为对舆情进行评论。评论信息中用户展现出对舆情事件的喜怒哀乐、赞成、反对的态度都表明了用户的情感倾向。
情感分析作为舆情分析的一大热点内容,目前它的研究方法主要有两大类:
1.构建情感词典分析情感
情感语义词典是构建者通过大量日常情感语义词的使用经验来人工提取标注表达情感倾向的词汇构成词典,并且利用情感词典对数据情感倾向进行分析的一种方法。
此方法的缺点是在不同的上下文语境中会展现出不同的情感语义倾向,词典无法涵盖词语所有语义倾向。但是运用情感词典也可解决在不同粒度上的情感分析,如情感特征抽取的问题,同时方便不同邻域的词典共享。2.采用机器学习相关方法分析情感
机器学习是通过输入大量数据,训练出数据中蕴含的知识,赋予机器学习能力,以解决直接编程无法完成的功能或者无法穷尽的情况。
国外研究应用中,Pang[8]利用朴树贝叶斯、支持向量机、最大熵方法对用户影评的情感倾向进行分类,与人工判断的结果比较发现支持向量机情感分类精确度最高。Erik[9]则实验了不同语言体系利用机器学习进行情感分析的准确率,结果显示法语为68%、荷兰语为70%、英语为83%,说明机器学习在对外文进行情感分析时效果较好。
由于中文处理的复杂性,不少国内学者也付出很多努力在利用机器学习方法进行情感分析的研究上。唐慧丰[10]等利用足够大的训练集进行实验,结果显示使用N元模型、信息增益、支持向量机的分类方法,情感分类效果不错。夏火松[11]以携程网用户评论为数据集,通过TF IDF加权计算方法,使用SVM分类器,研究了情感倾向分析中停用词的影响。
原文链接:http://www.jxszl.com/jsj/xxaq/607005.html