"景先生毕设|www.jxszl.com

基于主题爬虫的食品安全事件分析【字数:22963】

2024-02-25 16:59编辑: www.jxszl.com景先生毕设
随着人们生活水平的不断提高,以及食品行业频繁发生的食品安全事件,食品安全成为关注的热点。然而,目前仅仅能够从新闻中得到零散的信息,无法获得整个食品行业的安全形势。因此,本文通过研究中文文本处理涉及到的一些中文分词、文本分类、命名实体识别等算法,进而应用到食品安全新闻文本的处理中。首先对文本进行分词,之后使用文本分类算法过滤掉与食品安全相关度较低的新闻,最终使用命名实体识别算法获取到人物、机构、地点、食品等信息,并以词云和统计图的形式进行展示。此外,使用Spring Boot框架开发了一个基于Web的可视化爬虫管理系统。该系统能够实现可视化的爬虫配置与管理以及新闻数据的管理。
目录
摘要 1
关键词 1
Abstract. 1
Key words 1
引言 1
1. 绪论 1
1.1. 研究背景 1
1.2. 国内外研究现状 2
1.2.1. 国内研究现状 2
1.2.2. 国外研究现状 4
1.3. 研究目标与研究内容 4
1.3.1. 研究目标 4
1.3.2. 研究内容 5
1.3.3. 关键问题 5
2. 相关工具与技术 5
2.1. Git版本控制工具 5
2.2. Spring Boot框架 6
2.3. Thymeleaf页面模板引擎 7
2.4. Bootstrap前端页面框架 7
2.5. Echarts图表库 7
2.6. Scrapy爬虫框架 8
2.7. XGBoost算法包 8
2.8. Word2vec词向量工具 8
3. 算法研究与分析 8
3.1. 分词算法 9
3.1.1. 基于词典的分词算法 9
3.1.2. 基于统计的分词算法 9
3.1.3. 基于深度学习的分词 11
3.2. 文本分类算法 15
3.2.1. 朴素贝叶斯文本分类算法 15
3.2.2. CART文本分类算法 17
 *景先生毕设|www.jxszl.com +Q: ^351916072
3.2.3. XGBoost文本分类算法 20
3.3. 命名实体识别算法 22
4. 可视化爬虫配置与管理系统的设计与实现 22
4.1. 网站分析 22
4.1.1. 可行性分析 22
4.1.2. 系统功能分析 22
4.2. 网站设计 22
4.2.1. 总体功能设计 22
4.2.2. 数据库设计 23
4.3. 网站实现 24
4.3.1. 项目结构 24
4.3.2. 用户管理模块 24
4.3.3. 爬虫管理模块 26
4.3.4. 新闻数据管理模块 29
5. 食品安全新闻分析结果 31
5.1. 分析步骤 31
5.2. 分析结果 31
6. 总结与展望 41
6.1. 总结 41
6.2. 展望 41
致谢 41
参考文献 42
基于主题爬虫的食品安全事件分析
引言
引言
绪论
研究背景
虽然目前针对中文分词、文本分类、命名实体识别的算法已经比较成熟,相关学者也提出了一些基于经典算法的改进策略,并在实验环境下取得了不错的效果。然而,中文分词仍然面临着如何统一词语定界方案、如何对词语进行消歧以及如何解决不断出现的新词等问题[1]。此外,在实际的应用环境中,面对着不完全规范的新闻文本,如何做好文本的预处理以及如何使得这些算法能够在特定的领域内取得不错的效果是亟待解决的重要问题。目前,在Github上有诸如HanLP、Intel NLP、Allen NLP、Stanford Core NLP等开源的自然语言处理框架,然而这些框架并不是针对某个特定领域的,因此本文通过使用爬虫从食品安全网站以及新闻网站上获取新闻文本,并在分词、分类处理后对文本进行分析。
国内外研究现状
由于中文与英文的差异,国内外在自然语言处理方面的研究侧重点以及方法有所不同,比如英文的处理中没有分词这一步骤。
国内研究现状
分词方面,目前主要有基于词典、基于语义理解以及基于统计学的分词算法,随着深度学习的兴起,使用长短期记忆网络(Long Short Term Memory,LSTM)采用字标注的方式对中文进行分词也渐渐流行起来。

图 1 中文分词算法
基于词典的分词算法主要有正逆向最大匹配、TRIE索引树、N最短路径,其中孙茂松等[2]提出了整词二分、TRIE索引树以及逐字二分共三种基于词典的分词算法,其中整词二分与正向、逆向最大匹配分词算法比较相近;TRIE索引树将词语表构建为一个树形的结构,采用自上而下的查找方法,一般能够获得比整词二分更高的准确率,但是会占用较多的内存空间;逐字二分分词算法使用一个词表结构,运行过程与TRIE类似,但是它使用的数据结构较为简单,因此在大部分情况下的用时比TRIE分词用时要短。李庆虎[3]等在已有的基于哈希查找的词典分词算法基础上做出改进,提出了同时兼顾时间以及空间效率的双字哈希分词算法,算法通过对词语的前两个字构建两级哈希散列表,词语剩余字则通过指针进行串联,该算法在实验中比逐字二分速度提高了一半。张华平等[4]将最短路径算法应用到中文分词中,并提出了N最短路径分词算法,该算法通过查找字典,找到N种词语切分方案。对于词语之间边权值的设置,有两种方式,一种是统一置为1,另一种是基于词语的统计结果设置字之间的连接权值。在实验环境下,使用基于词频统计的N最短路径算法可以取得99.50%的准确率。

原文链接:http://www.jxszl.com/jsj/wljs/563964.html