"景先生毕设|www.jxszl.com

社会标签的文本聚类研究

2021-01-12 11:12编辑: www.jxszl.com景先生毕设
2社会标签作为一种新型网络信息组织方式,由网络信息的提供者或者用户自发为某类信息赋予一定数量的标签,选用自由词对感兴趣的网络信息资源进行自上而下的描述和揭示来实现网络信息的分众分类。以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。
目 录
Abstract2
Key words 2
一、引言3
二、研究综述3
三、研究思路及总体设计4
四、关键技术4
(一)数据清洗4
(二)标签的特征选择方法5
(三)聚类方法6
五、实验及结果分析7
(一)数据来源7
(三)评价方法与指标7
1.评价方法7
2.评价指标7
(三)实验结果分析8
2.未处理标签—筛选标签聚类结果对比9
3.不同聚类方法的结果对比9
六、结语10
致谢10
参考文献10
图1总体研究设计4
基于社会标签的文本聚类研究
信息管理与信息系统专业学生 何文静
指导教师 何琳
Research on Text Clustering Based on Social Tagging
Student majoring in Information Management and Information System HE Wenjing
Tutor HE Lin
Abstract:Social tagging is a new method for network information organization, given by the provider or the user of network inform *景先生毕设|www.jxszl.com +Q: ^351916072
ation for certain types of information. Users choose free words for network information resources and describe from top to bottom. In this paper, the authors select social tags which are used to annotate resources as feature items. Text clustering is implemented by Kmeans, a kind of clustering algorithm, and successfully conducted on small data set. The implementation of primary technology, such as tag filtering, clustering algorithm, in text clustering based on social tagging is discussed in details. By the experiment, it is concluded that text clustering based on social tags performs better than keywords, which can improve the clustering results.
Key words: Social tag;Feature selection;Clustering algorithm;Text clustering
一、引言
然而实际标注行为中,由于用户的知识背景不同、用户标注行为遵循“最省力原则”等原因导致垃圾标签的产生,使得社会标签的价值受到了很大的质疑。基于社会标签进行文本聚类是否是一种可行的文本组织方法?社会标签在文本聚类中的作用如何?本文探讨了基于社会标签的文本聚类方法,设计特征标签的选择方法并对文本聚类算法进行选择。通过对比实验证明:基于社会标签的文本聚类方法是一种有效的文本组织方法,然而垃圾标签的过滤以及标签中词间关系的建立仍然是影响基于社会标签进行文本聚类的重要因素。
二、研究综述
总体来说,目前主要集中于对社会标签之间聚类算法的研究以及基于社会标签进行相似用户的发现和资源推荐,而在基于社会标签改善文本聚类效果方面的研究相对较少。本文旨在探讨在Web2.0环境下,基于高质量用户的社会标签对所标注资源进行文本聚类来改善网络信息资源组织的效果,从而更好地揭示社会标签在网络资源聚类中的作用。
三、研究思路及总体设计
以研究社会标签在文本聚类中的作用为主要目的,设计基于社会标签的特征选择方法,筛选出具有聚类特性的特征标签,继而采用Kmeans方法,利用筛选后的标签对文本进行聚类,通过测评来评价该方法的有效性。本研究分为数据清洗、标签的特征选择、基于标签的聚类算法设计以及依据聚类效果分析标签作为揭示文本内容的工具时对文本内容的组织能力等几个步骤。总体研究设计如图1所示:
图1 总体研究设计
(1)数据采集模块:主要功能是采集大量数据,形成文本数据集,并对文本数据进行预处理,如去除噪音数据,规范化处理等,确保文本集中数据的有效性,以减少无关数据对实验结果造成的干扰。
(2)特征筛选模块:主要功能是选取揭示文本内容的社会标签作为特征词项。通过一定的筛选方法对标签进行选择,过滤垃圾标签,使标签在表达文本主题的基础上具有一定的区分性,而且概念明确客观。
(3)文本聚类模块:主要是采用向量空间模型,将文本均用特征向量表示,以文本相似度为衡量指标,采用一定的聚类方法对文本集进行聚类,使数据集中的数据形成若干个类别体系。
(4)实验分析模块:按照一定的方法和指标对聚类结果优劣进行评价,将聚类结果进行对比,分析标签作为揭示文本内容的工具时对文本内容的组织能力。指出实验的不足,并提出可能改进的方法。
四、关键技术
(一)数据清洗
为了保证本实验中搜集的所有数据集中的标签具有一定的语义标识能力,对数据进行如下清洗:
单词小写化:英文标签被转化为小写字体,更容易对其进行字符串比较;
符号、乱码过滤:将含有乱码的标签删除,若标签中含有标点符号,且该符号在标签中具有意义(如Web2.0中“.”是标签组成部分)则保留,其余含有符号的标签均被剔除;
数字过滤:若标签中含有数字,且该数字在标签中具有意义(如H2O中“2”是标签的组成部分,去掉后意义改变)则保留,其余含有数字的标签均被剔除;

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/42362.html