基于python的腾讯影视爬虫和分析系统(附件)【字数:5655】
目 录
一、引言 1
(一)选题背景和意义 1
(二)课题研究的目的和意义 2
二、技术简介 3
(一) 网络爬虫 3
(二) Python语言 3
(三) Scrapy 3
(四)Requests 4
(五)ECharts技术 4
三、概要设计 6
(一)概要设计 6
(二)解析与保存 8
四、项目实现 9
(一)获取要抓取的腾讯影视页面 9
(二)数据可视化。 11
五、结束语 19
六、致 谢 20
参考文献 21
引言
本章介绍本系统课题的研究背景,简单描述了电影影视行业的发展趋势。以及系统研究的目的意义的简单阐述。
(一)选题背景和意义
随着网络技术的进步,推动了电影影视行业向互联网方向发展,呈现出日新月异的发展态势,互联网俨然已成为人们观看电影、电视等影视产品的最大载体。为了能够在浩瀚的影视信息中,最大可能地精确查询自己所需要的影视信息,或者利用搜索引擎技术分析人们感兴趣的影视节目,影视大数据分析技术应运而生。
/
图11 影视大数据应用
从图11可以看出,影视大数据应用非常广泛,比如对于用户观影决策能起到一定的引导作用。从上图中可以看出,34%的用户主要是通过剧情来做出观影决策,24%的用户主要是基于演员做出观影决策,还有26%的用户是基于预告片做出观影决策,16%的用户是基于社区和影评做出观影决策。
腾讯视频在我国的视频网站中属于后起之秀,借助于腾迅公司良好的品牌效应,以及在社交领域的垄断地位,腾讯视频在年轻用户中占据了非常重要的地位,每天通过腾讯视频观看的用户数达到了数千万之多,在腾讯视频上,用户可以浏览到最新的影视信息,同时也可以发表评论,在很多好友进行交流,因此腾讯视频得到了广泛的应用,运用大数据技术对腾讯视频进行深入分析,有助于用户了解腾讯视频的最新动态,以及了解最新的影片信息。
(二)课题研究的目的和意义
课题研究的目的是:希望能够通 *51今日免费论文网|www.51jrft.com +Q: ^351916072#
过引入网络爬虫技术,解决传统搜索引擎在分析喜欢的电影影视节目中存在的不足,通过Python语言和相关的大数据开发框架,为用户提供一个抓取影视数据的大数据平台,为人们提供更加精准、科学的分析数据,输出的数据为相关的影视制作部门提供参考。
课题研究的意义是:当前大数据技术在各行业都得到了广泛的应用。目前,大数据在房地产行业的应用最为典型,比如二手房的价格走势、热度分析等。但是对于影视大数据,目前国内还并没有太多深入的研究。本课题的研究,弥补了影视大数据研究的不足,对于相关的影视爱好者而言,具有重要的参考价值。
/图12 系统基本结构
从上述功能结构图可以看出,腾讯影视可视化分析系统运用大数据技术,首先对腾讯影视网站的数据进行采集,包括网站源代码分析,腾讯网站数据的获取,腾讯网站数据的存储,在抓取到腾讯网站影视数据之后,对数据进行清洗。包括去重处理、遗址处理、去空处理等,然后对数据进行可视化的分析,对腾讯网站的评论可视化、思云可视化、排名可视化进行分析介绍。
二 、技术简介
(一) 网络爬虫
网络爬虫(Web Crawler),又称网络蜘蛛、网络蚂蚁、网络机器人等,在社区中也被称为网页追逐者。网络爬虫是一个自动爬取网页的程序,它为搜索引擎实现了从万维网上下载网页的功能,爬虫是搜索引擎的重要组成部分。
/.
图21 爬虫的基本模型
(二) Python语言
Python语言是大数据时代一个应用非常广泛的语言。Python语言的优势在于其在处理大规模数据时效率很高,能够根据用户需要生成非常直观的可视化图形。而且是Python是开源的,能够为用户节省开发成本。
图2.2展示了Python语言在2021编程语言中的排名。从上图可以看出,Python语言在2021年超过了Java,C++等老牌面向对象的编程语言,上升到第一名,得分为100分。可见,在大数据时代,Python语言得到了最广泛的应用,已经成为最受欢迎的编程语言。
(三) Scrapy
Scrapy 是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
/
图22 Scrapy架构
Scrapy运行流程大概如下:
(1).引擎从调度器中取出一个链接(URL)用于接下来的抓取;
(2).引擎把URL封装成一个请求(Request)传给下载器;
(3).下载器把资源下载下来,并封装成应答包(Response);
(4).爬虫解析Response;
(5).解析出实体(Item),则交给实体管道进行进一步的处理;
(6).解析出的是链接(URL),则把URL交给调度器等待抓取。
原文链接:http://www.jxszl.com/jsj/wlw/607579.html