互联网大数据的事件抽取(附件)

2021-04-27 21:36编辑: www.jxszl.com景先生毕设

【】随着互联网数据的不断增长，现在已经是大数据时代，挖掘这些数据中潜在的模式是一件有意义的事情。对各种大数据的分析将对各行各业产生不同程度的影响。本课题是基于互联网大数据的事件抽取，利用python语言设计网络爬虫，抓取了特定网站的主题页面，而后对数据进行清洗，剔除不相干或者明显出错的数据，而后分析出相应的事件，并使用ASP.NET技术将分析的结果呈现出来
目录
一、引言 2
（一）研究背景 2
（二）研究内容 2
（三）研究意义 2
二、数据抓取 2
（一）爬虫原理 2
（二）实现方式 3
三、数据清洗 6
（一）清洗目的 6
（二）清洗方法 6
四、事件抓取 6
五、事件呈现 7
（一）功能结构 7
（二）数据库设计 8
（三）模块实现 11
六、总结 19
致谢 20
参考文献 21
基于互联网大数据的事件抽取
一、引言
（一）研究背景
随着网络和互联网技术的不断发展，互联网上的数据以指数级的速度在增长，数据信息覆盖社会的各行各业，也是社会各领域的重要资源。在这些数据中蕴含着巨大的商业价值，如何从这些数据中得到一些有意义的、潜在有用的信息，成为了研究的热点问题之一，受到了广泛关注。
网络上，每天都会爆出各式各样的事件，如何从海量的文本中抓取人们感兴趣的事件，是一个值得研究的课题。在大量的数据中，对事件的相关信息，比如新闻信息、娱乐信息等进行收集、分析和处理，可以帮助用户快速准确的理解掌握他们感兴趣的事件及其相关信息，比如火灾发生的时间、伤亡人数，演唱会举报的地点、时间等。
（二）研究内容
本文主要研究的内容有：
信息抓取方法：分析网页的结构，研究相关主题页面的信息的抓取，利用python技术构建了网络爬虫，抓取主体网站的信息，比如新闻、演唱会、天气，获取相关的信息。
数据清洗方法：将抓取的信息进行过滤，剔除噪声数据。
事件抽取方法：对抽取的数据进行分析，建立事 *51今日免费论文网|www.jxszl.com +Q: ￥351916072$
件模型。
事件呈现方法：利用ASP.NET技术将抓取和分析的事件用可视化的方式进行了呈现。
（三）研究意义
在大数据时代，各类数据呈指数级增长，人们从海量数据中获取所需要的信息费时费力，如何准确地从海量数据中获取到需要的信息是一件值得研究的问题。比如一篇新闻中有着大量的文本信息，在有限的时间里如果人们能快速获取文章的中心思想、文章的主旨，将会节约人们的时间和精力，同时也增加了人们的阅读量。此外，将无结构或者半结构化的数据抽取成结构化的数据，存放在数据库中，也能方便研究人员的使用和分析。
二、数据抓取
对互联网上的大数据进行事件抽取，首先需要获得互联网上的数据，对海量的数据进行收集靠人工的方式并不可取，本课题使用了网络爬虫技术获取特定数据源上的相关信息。
（一）爬虫原理
互联网是由一个个站点和网络设备组成的网，通过浏览器可以访问站点，站点会将HTML、CSS、JS代码返回给浏览器，这些代码经过浏览器的解析和渲染，将多姿多彩的网页呈现在浏览器上。
如果将互联网比喻成一张蜘蛛网，数据就存放于蜘蛛网的各个节点上，而爬虫就是一只蜘蛛，它可以沿着网络抓取猎物也就是数据。爬虫指的是：可以向网站发起请求，然后获取资源后分析、提取有用的数据的程序；从技术的层面来讲就是通过程序模拟浏览器请求站点的行为，将站点返回来的HTML代码或JSON数据或者图片、视频爬取到本地，进而提取需要的数据存放起来使用。
（二）实现方式
利用爬虫实现数据抓取，首先要了解爬虫的基本流程，用户获取网络数据的方式有以下两种：（1）浏览器提交请求 → 下载网页代码 → 解析页面；（2）模拟浏览器向站点发送请求 → 获取网页的代码→ 对页面进行解析 → 提取有用的数据 → 存放于文件或数据库中。爬虫利用了第二种方式获取数据。
具体来说，给定一个待抓取的URL队列，然后通过抓包的方式，获得数据的请求地址。接着采用httpclient模拟浏览器将相应的数据抓取下来，这些数据一般是html文件或者是json数据。由于网页中的内容很多，很复杂，很多内容并不是实际需要的，所以需要对这些数据进行解析。本文在实现过程中，对抓取到的html页面进行解析，定位到相应的标签，获取需要的数据。
本文利用了python技术设计了网络爬虫，围绕着新闻、天气、演唱会、展会、体育几大主题进行了数据的采集。图1所示的是本课题的相关数据源。
/
图21 抓取数据源
下面以新闻模块为例做一个说明：
（1）从数据库中读取需要抓取的数据源站点，比如读取人民网http://cpc.people.com.cn/GB/64093/117005/index.html，图2所示的为人民网网站。
/
图22 人民网
（2）向目标站点发起请求，就是发送一个Request。当使用Python模拟浏览器发出请求并得到服务器正常响应时，就会得到如图3所示的为网页的源代码。
/
图23 网页源代码图
（3）使用Python的BeautifulSoup库对页面进行数据抓取和分析，获得用户需要抓取的数据。具体来说，首先导入bs4库from bs4 import BeautifulSoup，然后创建BeautifulSoup对象：
res = requests.get(url)
res.encoding = gb2312

原文链接：http://www.jxszl.com/jsj/xxaq/63202.html

"景先生毕设|www.jxszl.com

互联网大数据的事件抽取(附件)

查看完整版论文请

扫码加QQ

扫码加微信

在线客服

[QQ:351916072]