基于requests的链家分析及可视化系统(附件)【字数:8600】
Keywords:Requests; Web crawler; Data analysis; ECharts;目 录
一、 引言 1
(一)背景意义 1
(二)研究内容 1
二、 关键技术介绍 2
(一)Python 2
(二)Requests 2
(三)Pandas 2
(四)matplotlib 2
(五)Echarts 2
(六)Xpath 3
三、数据采集与存储 3
(一)结构分析 3
(二)数据获取 4
(三)数据存储 5
四、数据清洗 5
(一)数据浏览 5
(二)数据去重处理 5
(三)数据拆分 6
(四)数据替换 7
(五)保存清数据 7
五、数据分析 7
(一)分类汇总 7
(二)数据排序 9
(三)相关分析 9
六、数据可视化 12
(一) 可视化大屏界面 12
(二)可视化详细设计 13
七、总结和展望 23
致谢 24
参考文献 25
附录 26
引言
阐明开发此系统的背景意义及发开此系统的主要过程。
(一)背景意义
*51今日免费论文网|www.51jrft.com +Q: &351916072&
/> 随着我国经济的飞速增长,国民需求也随之增长。住房需求不断增长,其中二手房更是在新青年的选择中占了极高的比例。根据二手房市场的情况统计出,二手房已成为近乎3成青年人的选择。根据省二手房市场的数据,近几年来年同比需求增长达到了20%以上。经过初步的调查,仅河北省内二手房购买意向占比就高达40%。
如今是信息快速变化的时代,所以不管对消费者还是对市场管理者来说,都需要实时了解当前市场的最新和最全面的情况。因此像对买新房、二手房,租房及装修都有所涉及的安居客(https://anjuke.com/)和对招聘、二手车、二手市场及房产也都涉猎的58同城的一些类似的网站出现在网络上,使需求者可以方便的拿到自己想要的信息,同时还具有一定的准确性。但是调差发现目前绝大多数网站上都有大量的复杂无用,时效性已经过期的信息,同时有的内容驳杂,还充斥着各种广告推广和其他类型的信息。
因此,本课题的目的是通过对链家二手房网站数据的研究,打造一个简单明了且方便需求者使用的系统。
(二)研究内容
本课题采用Requests方法和Xpath定位标签进行二手房网站数据的爬取,采用pandas进行数据清洗和分析,采用ECharts完成数据可视化。数据采集部分包括:小区名称,地址,房子信息,房子关注人数和发布时间以及价格等;数据清洗部分包括:对数据的空值处理和去重处理以及数据的重新排列;数据分析部分包括:区域楼层朝向等对价格的影响和关系;可视化部分包括:将得到的数据清晰地表达出来。具体如图11所示。
/
图11 主要研究内容
关键技术介绍
本课题采用数据采集、清洗、分析、可视化等大数据的技术,运用Requests模块,下面进行详细介绍。
(一)Python
Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,更多被用于独立的、大型项目的开发。很多高校和大专院校的计算机课程均采用Python作为入门语言。
(二)Requests
Requests是基于Python开发的HTTP 库,与urllib标准库相比,它不仅使用方便,而且能节约大量的工作。实际上,requests是在urllib的基础上进行了高度的封装,它不仅继承了urllib的所有特性,而且还支持一些其它的特性,比如使用Cookie保持会话、自动确定响应内容的编码等,可以轻而易举地完成浏览器的任何操作。
(三)Pandas
Pandas是一个开源的第三方Python库,从Numpy和Matplotlib的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas已经成为Python数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
(四)matplotlib
matplotlib是一个python 2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版物质量数据。 可以在Python脚本中,Python和使用IPython的壳(ALA MATLAB® *或数学®),Web应用程序服务器,和六个图形用户界面工具包。matplotlib尝试使容易的事情变得容易而使困难的事情变得可能。只需几行代码就可以生成图表,直方图,功率谱,条形图,误差图,散点图等。
(五)Echarts
ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9 /10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库Zender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。
原文链接:http://www.jxszl.com/jsj/wlw/607582.html