"景先生毕设|www.jxszl.com

互联网电影数据分析及可视化系统(附件)【字数:6724】

2024-11-03 13:56编辑: www.jxszl.com景先生毕设
摘 要本课题采用爬虫XPath框架、Python数据清洗和数据分析以及ECharts等大数据技术,聚合豆瓣网、电影网和jypsvip网等电影信息,设计和开发了互联网电影数据分析及可视化系统。本课题的主要内容如下(1)数据爬取和持久化理解网站结构后,采用爬虫XPath框架爬取数据;(2)数据清洗和标准化探查数据结构和分布对爬取的数据进行清洗;(3)数据分析和知识发现分析属性特征进行分析;(4)分析结果动态显示基于ECharts技术展现数据。本课题综合应用大数据专业的多项技术,多维度分析电影的发展趋势,为人们提供高质量电影,具有较高的实用性。
目录
一、引言 1
(一)背景意义 .1
(二)研究内容 1
二、 关键技术介绍 2
(一)XPath 2
(二)Pandas 2
(三)ECharts 3
三、数据采集与存储 3
(一)结构分析 3
(二)数据获取 6
(三)数据存储 7
四、数据清洗 8
(一)数据浏览 9
(二)数据去重去空处理 9
(三)数据一致处理 10
(四)数据去空处理 11
(五)对列的拆分 12
(六)删除不合理数据 13
(七)保存数据 13
五、数据分析 13
(一)描述分析 14
(二)数据排序 14
(三)分类汇总 15
(四)相关分析 17
六、数据可视化 17
(一)可视化大屏展示 17
(二)各部分可视化展示 18
七、总结和展望 19
八、致谢 20
参考文献 21
附录 各部分详细代码 22
引言
近些年来我国电影行业迅速发展,电影逐渐成为人们主流的娱乐方式之一,高分电影也越来越受到人们的喜爱。在论文里统计了三个电影网站里的高分电影,然后展示给人们,为人们提供更多好的电影,可以让人们有目的性的选择的自己喜欢的电影。
(一)背景意义
 *51今日免费论文网|www.51jrft.com +Q: ^351916072
随着中国经济的发展,人们的生活质量也逐渐的提高,电影行业也在蓬勃发展。虽然电影行业在快速增长,但是电影行业里也存在很多的问题,一方面是电影的质量层次不齐;另一方面电影网站的资源也是良秀不一。本文将通过对电影数据的采集、清洗、分析、可视化来供人们参考挑选高分电影。
(二)研究内容
本文采用XPath框架获取电影网站数据,采用Python进行数据清洗和分析,采用VSCode完成数据可视化。数据采集部分包括:分析网站结构用XPath框架获取数据并将数据用csv文件存储;数据清洗部分包括:对数据的去重去空,让数据结构保持一致;数据分析部分包括:分类数据进行汇总,对某些关键值进行分析汇总;可视化部分包括:用VSCode对评分、年份、国家等关键值统计并展示出来。具体如图11所示。
/
图11 主要研究内容
关键技术介绍
本文涉及数据采集、清洗、分析、可视化等大数据的技术,采用XPath、Pandas、VSCode、ECharts等框架或软件,下面进行详细介绍。
(一)XPath
XPath[12]是一个为了提取结构性数据而编写的语法结构,可以用来快速采集Web网页数据。XPath作为网页采集工具,使得将网页采集的更见简洁高效,它让爬虫更加简单,框架一目了然,优点是简洁大规模和高效稳定的爬取。
(二)Pandas
Pandas[4]是一种基于NumPy的工具,Pandas是 Python 的核心数据分析支持库,Pandas拥有快速、灵活、明确的数据结构,宗旨是能够简单、直观、快速地处理关系型、标记型数据,是一款强大、灵活的开源数据分析工具。
(三)ECharts
ECharts是一个使用Javascript实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器。底层依赖轻量级的矢量图形库ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。[9]
三、数据采集与存储
在进行数据采集之前,首先在PyCharm里创建名叫working 的项目目录并创建movie文件夹然后在导入lxml包使得XPath解析正常使用。Movie文件夹里存放了三个电影网站爬取并清洗和分析过的文件,创建效果如图31所示。
(一)结构分析
数据采集的网址:采集了豆瓣网,电影网和jpysvip三大电影网站。数据采集字段包括:电影名、年份、国家、电影类型、导演和主演等。
1.网站初步分析
首先打开网页源代码对要爬取的数据进行分析,发现每一部电影由一个块所构成,需要的数据都在一个块里只需要对每块里的数据进行结构分析,定位到所需要的数据后,例如电影名《肖申克的救赎》就是在li标签下的某个div中的a标签,通过这样重复定位所需要的数据后,再获取整块的完整路径分析出所有块的上一级目录后用XPath获取所有的li标签网页分析如图32所示。
/
图31 创建数据采集项目结果
/
图32 网站初步分析结果
2.制定反爬策略
在多次爬取时发现网页不再允许请求访问网页,所以经常使用UserAgent请求头进行对网页的访问请求,UserAgent实际上就是你的浏览器信息。是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识并同时使用time函数使爬虫休息,每隔一段时间访问一次网页进行反爬。反爬策略如图33所示。

原文链接:http://www.jxszl.com/jsj/wlw/607572.html