"景先生毕设|www.jxszl.com

去哪儿旅行数据分析及可视化系统(附件)【字数:6861】

2024-11-03 13:56编辑: www.jxszl.com景先生毕设
摘 要每次到空暇时,人们就会想出去旅游。但是在哪儿玩,他们没有相关攻略。本课题的内容要点如下所述(1)数据抓取和持久化。了解网站架构后,使用XPath标签确定位置;(2)数据清洗和规范化。使用Re和Pandas进行数据清洗;(3)数据分析和知识发现。分析各地区的景点位置、受欢迎的程度以及食物评价等;(4)分析结果动态显示。PyECharts的可视化呈现。本课题综合应用大数据专业的多项技术,对旅游市场发展趋向进行多元分析,在旅游企业和游客决策时候提供依据,在市场上带有很高的应用价值。
目录
一、 引言 1
(一)背景意义 1
(二)研究内容 2
二、 关键技术介绍 2
(一)Requests 2
(二)csv 3
(三)Pandas 3
(四)csv 3
(五)Pandas 3
三、数据采集与存储 4
(一)结构分析 4
(二)数据获取 5
(三)数据存储 5
四、数据清洗 5
(一)数据浏览 5
(二)数据一致处理 5
(三)数据去空处理 5
(四)保存清数据 5
五、数据可视化 6
(一)可视化大屏界面 6
(二)可视化详细设计 7
六、总结和展望 21
七、致谢 22
引言
对去哪儿旅行数据分析及可视化系统完成的背景意义和此系统主体开发思路进行阐述。
(一)背景意义
紧接着收入、消费总体水平的持续提升,人们的生存质量也愈加高要求。由于我国旅游业的连续成长,旅游也逐渐成了人们的一大需求。随着旅游市场大势所趋,2019年中国旅游市场迅速好转,入境旅游市场也到了迟缓回升的路上,出境旅游市场逐步回暖。国内游客外出游玩528700万人次,跟上一年度同一个时期比较看来增长了11.2%。出入境旅游总人数达30100万,比上一年度增长7.5%,旅游总收入61000亿元,比上一年度增长9.8%。随着今年我国疫情的加重,人们为了配合管控,很多时候都闭不出户,但是同时想要出游的欲望也越来越高,对之前 *51今日免费论文网|www.51jrft.com +Q: ^351916072
的旅游景点流连忘返外,也有大量外国友人想要来我国旅游。等到疫情缓和,春日已至,在国内又有哪些适合我们去旅行的景点?它们地理位置怎么样?热度如何?评价好不好?又有哪些特色美食?这是本次分析的目的。
据初步估测,2019年,国内旅游业GDP的总贡献是105500亿元,占其12.93%。在旅游业的带动下,有0.312亿人成为了直接从业人员,有0.4885亿人成为旅游间接从业人员,共计在中国总就业人数占11.37%。
与大数量的旅游人群基数相匹配的是各种各样的旅游网站,以及很多杂乱无章的相关数据储存:携程旅游网(HTTP://WWW.CTROP.COM);主要经营:购买机票,预订酒店,预约度假;平均每一天访问数量大概148万。欣欣旅游网(HTTP://WWW.CNCN.COM);主要经营:旅行社网店的挖掘、机票的购买、酒店的预定、签证的办理;平均每一天访问数量大概66万。以下旅游网站不作为示例列出,他们网站的架构、性能设置和主要经营业务跟上面两个例子基本相同。
以上旅游网站包括很多的“泛旅游信息”,如旅游相关景点说明、出游需要注意的事情、门票价格、景区路线、本地美食等,即所有可用的跟旅游相关的信息都可以用文字、图片、表格等公共用户获取的可视化方式。因此,基于从上述旅游网站获取的信息,可以降低取得旅游信息的困难程度,并且保证信息的准确程度和由来。然而问题是,上面所说的旅游网站的旅游数据冗长复杂,还夹杂着其他类型的广告等,还有旅游用户不需要的无用信息,加大了海量用户获得针对姓氏的困难程度。
然而疑问在于,上面说的旅游网站内容冗长,种类繁多复杂。此外,还夹杂着非旅游用户不想要的其他类型的广告、促销等无用信息,增加了海量用户获取针对性姓氏信息的难度。
去哪儿网成立于2005年,最初的业务形态为机票搜索比价,现在已经成长为中国领先的在线旅游平台之一。去哪儿致力于通过技术推动旅游大众化,为用户带来卓越的旅行体验。去哪儿与全球超过100家航空公司、9000家旅行代理商达成深度合作,搜索预订范围涵盖68万条国际国内航线、200万家酒店和特色民宿,以及超过120万条度假线路、2万余个目的地门票等玩乐项目。截至目前,去哪儿累计用户量近6亿,全球范围内APP累积下载量超过60亿。于是,本课题以去哪儿旅行网站作为总体研究对象,借助网络爬虫技术来知道季节性旅游数据。
(二)研究内容
本文采用Requests+XPath[1]获取去哪儿网网站数据,采用Pandas[2]进行数据清洗和分析,采用PyECharts[5][6]完成数据可视化。数据采集部分包括景点名称,景点热度,景点地理坐标,景点热评,景点评论和美食等信息;数据清洗部分包括:处理数据中的缺失值和重复值;数据分析部分包括:景点热度与评论数量的关系等;可视化部分包括:将分析出的结果进行可视化展示。具体如图11所示。
图11 主要研究内容
关键技术介绍
本文涵盖了数据收集、清洗、分析、可视化等大数据的技术,采用Requests、csv、Pandas等库下面进行详细介绍。
Requests
Requests[1] 库是在URLlib的基础上开发而来,它是通过Python写的,而且使用了Apache2 Licensed 开源协议的 HTTP 库。Requests是一个非常强大的网络请求库,能够发送各种HTTP请求,如浏览器来取得网站信息,比 URLlib 更为简便,可以为我们省去很多工作,能满足 HTTP 测试的相关需求。Requests 继承了urllib2的一切特点。Requests支持HTTP连接保留和连接池、使用cookie的会话保留、文件上传,自动确定响应内容的编码以及支持国际化URL 和 POST 数据的自动编码。更为有用的一点是,Python3被它支持。安装python后,Requests模块默认不安装,必须通过pip单独安装。
(二)csv
Csv,即逗号分隔值,是一种经常使用的文本格式,用来保存表格信息,包含数字、字符。该格式相对常见,可以通过任意数目的记录构成,其间用某种换行符来进行分割。用文本文件、Excel或者类似与文本文件的都可以打开csv文件。Python提供了csv模块去以csv格式读取和写入表格数据,csv文件格式没有通用标准,但基本在RFC 4180中进行了概述。csv格式最适合表示记录的集合或序列,其中每一条记录具有一模一样的字段序列。这差不多是关系数据库中的单个关系,也可以是典型Excel表格中的数据(虽然不可以计算)。它的限制是数据库可以容纳多张诸如表的结构,然而一个csv文件只能表示一个表,并且需要多个文件来表示多个表。自然,这作为中间交换数据就可以了。

原文链接:http://www.jxszl.com/jsj/wlw/607573.html