"景先生毕设|www.jxszl.com

互联网大数据的事件抽取(附件)

2021-04-27 21:36编辑: www.jxszl.com景先生毕设
【】随着互联网数据的不断增长,现在已经是大数据时代,挖掘这些数据中潜在的模式是一件有意义的事情。对各种大数据的分析将对各行各业产生不同程度的影响。本课题是基于互联网大数据的事件抽取,利用python语言设计网络爬虫,抓取了特定网站的主题页面,而后对数据进行清洗,剔除不相干或者明显出错的数据,而后分析出相应的事件,并使用ASP.NET技术将分析的结果呈现出来
目 录
一、引言 2
(一)研究背景 2
(二)研究内容 2
(三)研究意义 2
二、数据抓取 2
(一)爬虫原理 2
(二)实现方式 3
三、数据清洗 6
(一)清洗目的 6
(二)清洗方法 6
四、事件抓取 6
五、事件呈现 7
(一)功能结构 7
(二)数据库设计 8
(三)模块实现 11
六、总结 19
致谢 20
参考文献 21
基于互联网大数据的事件抽取
一、引言
(一)研究背景
随着网络和互联网技术的不断发展,互联网上的数据以指数级的速度在增长,数据信息覆盖社会的各行各业,也是社会各领域的重要资源。在这些数据中蕴含着巨大的商业价值,如何从这些数据中得到一些有意义的、潜在有用的信息,成为了研究的热点问题之一,受到了广泛关注。
网络上,每天都会爆出各式各样的事件,如何从海量的文本中抓取人们感兴趣的事件,是一个值得研究的课题。在大量的数据中,对事件的相关信息,比如新闻信息、娱乐信息等进行收集、分析和处理,可以帮助用户快速准确的理解掌握他们感兴趣的事件及其相关信息,比如火灾发生的时间、伤亡人数,演唱会举报的地点、时间等。
(二)研究内容
本文主要研究的内容有:
信息抓取方法:分析网页的结构,研究相关主题页面的信息的抓取,利用python技术构建了网络爬虫,抓取主体网站的信息,比如新闻、演唱会、天气,获取相关的信息。
数据清洗方法:将抓取的信息进行过滤,剔除噪声数据。
事件抽取方法:对抽取的数据进行分析,建立事 *51今日免费论文网|www.jxszl.com +Q: ¥351916072
件模型。
事件呈现方法:利用ASP.NET技术将抓取和分析的事件用可视化的方式进行了呈现。
(三)研究意义
在大数据时代,各类数据呈指数级增长,人们从海量数据中获取所需要的信息费时费力,如何准确地从海量数据中获取到需要的信息是一件值得研究的问题。比如一篇新闻中有着大量的文本信息,在有限的时间里如果人们能快速获取文章的中心思想、文章的主旨,将会节约人们的时间和精力,同时也增加了人们的阅读量。此外,将无结构或者半结构化的数据抽取成结构化的数据,存放在数据库中,也能方便研究人员的使用和分析。
二、数据抓取
对互联网上的大数据进行事件抽取,首先需要获得互联网上的数据,对海量的数据进行收集靠人工的方式并不可取,本课题使用了网络爬虫技术获取特定数据源上的相关信息。
(一)爬虫原理
互联网是由一个个站点和网络设备组成的网,通过浏览器可以访问站点,站点会将HTML、CSS、JS代码返回给浏览器,这些代码经过浏览器的解析和渲染,将多姿多彩的网页呈现在浏览器上。
如果将互联网比喻成一张蜘蛛网,数据就存放于蜘蛛网的各个节点上,而爬虫就是一只蜘蛛,它可以沿着网络抓取猎物也就是数据。爬虫指的是:可以向网站发起请求,然后获取资源后分析、提取有用的数据的程序;从技术的层面来讲就是通过程序模拟浏览器请求站点的行为,将站点返回来的HTML代码或JSON数据或者图片、视频爬取到本地,进而提取需要的数据存放起来使用。
(二)实现方式
利用爬虫实现数据抓取,首先要了解爬虫的基本流程,用户获取网络数据的方式有以下两种:(1)浏览器提交请求 → 下载网页代码 → 解析页面;(2)模拟浏览器向站点发送请求 → 获取网页的代码→ 对页面进行解析 → 提取有用的数据 → 存放于文件或数据库中。爬虫利用了第二种方式获取数据。
具体来说,给定一个待抓取的URL队列,然后通过抓包的方式,获得数据的请求地址。接着采用httpclient模拟浏览器将相应的数据抓取下来,这些数据一般是html文件或者是json数据。由于网页中的内容很多,很复杂,很多内容并不是实际需要的,所以需要对这些数据进行解析。本文在实现过程中,对抓取到的html页面进行解析,定位到相应的标签,获取需要的数据。
本文利用了python技术设计了网络爬虫,围绕着新闻、天气、演唱会、展会、体育几大主题进行了数据的采集。图1所示的是本课题的相关数据源。
/
图21 抓取数据源
下面以新闻模块为例做一个说明:
(1)从数据库中读取需要抓取的数据源站点,比如读取人民网http://cpc.people.com.cn/GB/64093/117005/index.html,图2所示的为人民网网站。
/
图22 人民网
(2)向目标站点发起请求,就是发送一个Request。当使用Python模拟浏览器发出请求并得到服务器正常响应时,就会得到如图3所示的为网页的源代码。
/
图23 网页源代码图
(3)使用Python的BeautifulSoup库对页面进行数据抓取和分析,获得用户需要抓取的数据。具体来说,首先导入bs4库from bs4 import BeautifulSoup,然后创建BeautifulSoup对象:
res = requests.get(url)
res.encoding = gb2312

原文链接:http://www.jxszl.com/jsj/xxaq/63202.html