"景先生毕设|www.jxszl.com

针对通关行业网络结构化数据和文本数据的采集研究【字数:9388】

2024-01-16 14:49编辑: www.jxszl.com景先生毕设
摘 要现如今网络的发展非常迅速,在中国,网络的发展蓬勃向上,截止2018年底中国网民的数量达到了惊人的8.29亿,并且仍然在迅速增长中。大多数网民上网是为了检索信息,从而来满足自己学习工作的需求,并且不仅是个人用户,许多企业也通过网络来检索信息,查询有关相关行业的最新消息,以此来掌握行业的发展动向趋势,为企业的发展提供帮助。然而,网络的信息含量是巨大的,不断地有新的信息汇入这个流量大海,所以如何能够及时有效的从一大堆公开的信息中提取出自己想要的信息已经成为了如今的研究热点。当前最火热的就是人工智能这个领域,这个领域涉及很广,本文就先以一个海关网站为例子,利用人工智能领域下的网络爬虫技术来对这个网站公开的信息进行数据的采集,对商品的实体、实体关系、税率等等的数据进行采集,发掘数据中的潜在规律价值,帮助用户更好的体验,之后再由此展开对其他领域的拓展。
目录
第一章 绪论 1
1.1 研究背景和意义 1
1.2 信息抽取技术的现状 1
1.3 本文的主要工作 2
1.4 本文的组织结构 2
第二章 pycharmIDE软件简介 3
2.1 pycharm软件介绍 3
2.2 pycharm在信息抽取的应用 4
第三章 网络爬虫的概述 5
3.1 网络爬虫的背景 5
3.2 网络爬虫的基本流程 6
3.3 网络爬虫的分类 7
第四章 以全关通为基础采集数据 8
4.1调用库模拟HTTP请求 8
4.2获取原始html 9
4.3 URL解析 10
4.4反爬虫并且保存数据 12
4.5爬虫运行结果 13
第五章 其他领域的拓展 15
5.1 研究目标 15
5.2 设计流程 15
5.3 设计的过程 15
5.4 开发的成果 17
5.5 采集另外数据 18
总结与展望 19
参考文献 20
致谢 21
第一章 绪论
1.1 研究背景和意义
1. *景先生毕设|www.jxszl.com +Q: *351916072
2 信息抽取技术的现状
信息抽取技术是机器通过技术手段对一个非结构化的数据信息分析,从而获取用户的个人喜好,开发出潜在的价值的过程。关于信息抽取技术的研究,国外的研究是从上个世纪的五十年代末期开始的。H.P.Luhn这个学者提出了一个思想方法,主要内容是统计词频,这种方法经常在自动分类中使用,从此信息抽取技术产生了启蒙。时间到了1991年,Rau这名学者发表了关于通过启发规则和人工构建规则的方法来识别一些公司的名称,这也代表实体命名这项工作从此展开。之后Rau又提出来把文本中的一些有特点的短语进行归类,并且将这些文本语言第一次划分为三个大类和七个小类。发展到今日,国外对于信息抽取技术的研究,已经从实验阶段,全面的走向了实用阶段。但是,国内正式引入信息抽取的概念,并开展针对中文的信息抽取技术研究是从近些年才开始的。在上世纪八十年代,侯汉清教授首次公开向大家引入了国外信息抽取技术发展的进程,并且列举出了一系列成果,从此以后信息抽取技术才被重视,并且被国家规划为重点基础项目。这一规划促进了中国多年的信息抽取技术研究取得了进步,而且国家也开发出了中文的分词系统。这些进步不仅可以很好的解决词语分类的问题,而且还可以解决因为汉语的复杂性从而带来的标注和识别等的一系列问题。 虽然如此,但是我国的信息抽取研究目前仍然处于一个学习,吸收国外的理论和经验基础的状态。尽管现在已经开发了小规模的实验,但是存在的问题还是非常多的。这是因为在文本挖掘的时候,我们需要面对的是汉语这个复杂的语言,汉语博大精深,语义多重。所以在进行文本挖掘的时候,仍然需要根据上下文的意思来相互打磨。而这个打磨的过程,依旧复杂困难。随着人工智能时代的到来,各种科学技术得到开发应用,信息抽取技术在这种背景下获得了巨大的发展,越来越完善。
1.3 本文的主要工作
本文的主要工作是以信息抽取技术为出发点,对一个目标海关网站提取我所需的信息数据,并且从中分析数据信息,研究其中的潜在规律价值,那么我主要是通过网络爬虫技术手段来实现的。爬虫程序是用python语言所写的,是在pycharm这个IDE中编译运行,调用许多专业的库类来实现对数据信息的提取分析,最后拓展到其他网站,来提取信息并且分析数据。
1.4 本文的组织结构
第一章为绪论,介绍本文的研究背景和意义,简要的说明了信息抽取技术的发展现状,概述了本文的主要工作是以信息抽取技术为基础而研究的,最后介绍了本文的组织结构。
第二章是对pycharm这个IDE软件的介绍,pycharm这个IDE所含的库类很多,在网络爬虫方面的应用。
第三章是对网络爬虫概念的介绍,介绍它的背景和实现的基本流程,最后介绍了它的分类,包括本文采用的方式。
第四章是以全关通网站为目标,设计开发程序代码实现对指定数据采集并且保存下来,主要包括先模拟HTTP请求,获取原始HTML,再解析URL,最后将数据保存在本地文件夹中,提出了相应的反爬措施,展示了运行的结果。
第五章是拓展到其他领域的应用,以豆瓣电影为目标,首先提出研究的目标与相应的流程,设计的过程总结,展示开发的成果,最后更换目标设计开发。
第六章是总结与展望,总结我研究过程中的不足地方,并且对未来的发展提出了观点。
pycharmIDE软件简介
2.1 pycharm软件介绍
C语言的发展已经几十年了,它被广泛用于各种程序软件的开发,可以说是万物始祖,但是随着技术的发展,C语言已经不能适应这个新时代对技术支持的需求。因此,基于这个原因,各种程序语言被开发而生,并且被用到各类领域的开发,比如java、C++、python等等。本文我写网络爬虫程序是用python语言而写,它是基于C语言而被创造出来的,与C语言相比,它的语言更优美,更清晰,更简单,深受许多开发人员的喜爱。业界传闻,人生苦短,我用python,可想而知,这门语言的强大之处。而pycharm是专门为python提供开发环境的IDE,里面集合了python编译器,仿真模拟插件,各种工具包的库等等,可以说是一套完整的可以支持许多大型项目开发的软件。

图21 pycharmIDE软件界面
2.2 pycharm在信息抽取的应用
Pycharm里面包含许多爬虫框架,其中用的比较多的是Scrapy和PySpider。PySpider操作更为方便简单,它加入了web界面,写爬虫的话会更加快,并且集成了phantomjs这个工具包,可以用来抓取js渲染的页面,而Scrapy可以用来自定义,比起PySpider的话,更接近于底层的开发,比较适合学习研究,但是需要学习许多相关的知识,不过做些底层分布式研究开发远远足够了。

原文链接:http://www.jxszl.com/dzxx/dzdq/557170.html