招聘广告中职位需求关键词分析以人工智能为例【字数:12111】
目录
摘要3
关键词3
Abstract3
Key words3
引言3
1选题背景3
2 关键词自动抽取研究现状4
2.1关键词自动抽取的内涵 4
2.2 关键词自动抽取的理论基础4
2.3 关键词自动抽取方法5
2.4 关键词自动抽取的挑战和发展趋势6
3 依存句法分析6
3.1 依存句法分析内涵6
3.2 依存句法分析现状6
3.3 依存句法分析的方法7
4 实验过程7
4.1 文本预处理8
4.2 基于依存句法分析的候选关键词选取8
4.3 Cvalue值计算9
4.4 候选关键词领域相关性度量9
4.5 融合领域相关性的Cvalue值计算10
5 实验数据及具体操作过程10
5.1 获取数据10
5.2 详细操作过程10
5.3 实验结果11
6 分析与结论12
致谢13
参考文献13
图18
图29 *51今日免费论文网|www.51jrft.com +Q: ^351916072^
图39
图410
图511
图611
图711
表110
招聘广告中职位需求关键词分析——以人工智能为例
引言
引言
1 选题背景
2 关键词自动抽取研究现状
2.1 关键词自动抽取的内涵
关键词是表达文献主题含义的单位,关键词自动抽取是一种有辨别功能且具有代表性文本的技术,关键词自动抽取是通过计算机程序从相关文本中自动抽取具有重要性和主题性的词或词组的自动化技术[3]。关键词自动抽取也就是文本挖掘方面的关键词抽取技术,同时也在信息检索方面被称作自动标引技术。伴随着互联网的不断发展,有越来越多的方法都运用到关键词自动抽取中,是经由计算机来完成的抽取关键词、主题词等重要信息的自动化技术。
2.2 关键词自动抽取的理论基础
关键词自动抽是一项重要课题,是自然语言处理等领域的重要工作。拥有多个学科的理论基础,其中包括语言学、认知科学等多种学科。由于语言的复杂多样性,导致了词或词组搭配在一起并非其原本含义、词的增加或删除都可能对于关键词造成曲解、增加含义等影响自动抽取结果的变化,所以关键词自动抽取有语言学基础。作为自然语言处理的一种,关键词自动抽取也致力于利用计算机来划分、抽取自然语言文本,提高效率,增加抽取的准确性。
在认知科学中,提出人需要首先识别、学习、理解文本中的含义、概念,才能自由处理自然语言文本,因此,机器学习也是按照人类的学习过程,进行识别、理解、处理自然语言文本。而关键词的自动抽取也是机器学习十分重要的一部分。人类提取自然语言文本中的关键词对文本进行概括、总结、分析、索引,机器学习也同样如此。
另外,在一篇文章中,总是会围绕某个主题进行描述,所以产生这种网络图。除此之外,心理学中的联想法则也同样是关键词自动抽取的基础。由于曾经在一起的目标对象往往在想象中也是联系在一起,所以当他们分别出现时,会自动联想到另外一个。这种结构可以对相似领域的文本关键词自动抽取有很大帮助,从语料库、确定候选关键词等操作都可以十分快捷的进行。
2.3 关键词自动抽取方法
传统的抽取方法主要分为两种,分别是基于统计以及基于规则的方法。最初采用基于规则的抽取方法,这种方法通过规则匹配实现技能信息抽取,但是有相当多的局限性,例如人工确定规则导致规则的多样性和不确定性,难以形成统一的标准,极大的降低效率,也提高了大量成本。另一种则是基于概率的抽取方法,是利用语料库中某个词作为关键词的概率,以此为基础进行抽取,虽然这种方法可以在一定程度上弥补按照规则抽取的部分不足,但仍然不能与当下大数据背景下的海量文本数据进行高度契合[4]。传统的抽取方法在面对海量数据的情况下,弊端更加明显,传统方法的低效率、不确定性、人工成本大等多方面的缺陷都导致其不适应目前的文本分析需求,所以机器学习、自动抽取方法也应运而生,飞速发展,关键词自动抽取方法也可以更进一步划分为有监督方法、半监督方法和无监督方法。
2.3.1 有监督方法
有监督方法是指给机器事先训练一个能够预测结果、通过算法判断候选关键词是否为关键词的一个模型。通常的步骤是首先创建一个具有关键词标注的大量文本用来给机器进行学习,通过训练得到一个模型,最后对指定文本进行关键词自动抽取。这种方法常借助决策树、朴素贝叶斯、最大熵模型等进行监督机器学习[5]。但是由于语料库的局限性,一旦有语料库中未收录的词出现,会大大影响到关键词自动抽取的结果,并且随着网络的飞速发展,语料库的更新速度也要伴随网络信息的飞速发展而加快,所以很大程度的限制了这类方法。
2.3.2 无监督方法和半监督方法
关键词自动抽取也可以不需要人工标注建立语料库,通过一些人为设置的指标,进行权重排序,包括统计法、基于主题的方法等。基于统计的方法例如TFIDF,这种方法通过计算词在文本中的关联信息进行权重排序,简单快捷。但是TFIDF方法有明显的缺点,就是单纯以词频衡量词在文本中的重要性并不够十分客观,在本次实验过程中,关于招聘网站中“人工智能”职位需求的文本数据中,存在大量的出现频次很高,但是与关键词无关的噪声词,所以这种方法并不适用与某些特定领域。
基于主题的的方法中最有代表性的就是LDA模型。LDA模型是利用主题模型来计算词在句子中的权重,并通过模型各主题下词的权重分布来计算词的主题特征值[6]。在计算主题特征值之后即可将其作为关键词。由此来看,主题模型的发展时间较短,但是有较大的利用空间,是一种在未来能够得到广泛使用的关键词自动抽取方法,有广阔的应用前景,相信针对不同的条件下也会有非常出色的表现。
原文链接:http://www.jxszl.com/jsj/xxaq/607009.html