基于request技术的58同城二手房数据采集分析与可视化(附件)【字数:7043】
目录
一、 引言 1
(一)背景意义 1
(二)研究内容 1
二、 关键技术介绍 1
(一)开发语言 2
(二)Request 2
(三)lxml 2
(四)EChart框架 2
三、数据采集与存储 3
(一)结构分析 3
(二)数据获取 4
(三)数据存储 5
四、 数据清洗 6
(一)数据浏览 6
(二)数据清洗处理 6
(三)删除不合理数据 7
(四)保存清洗处理的数据 7
五、 数据分析 8
(一)描述分析 8
(二)分类汇总 8
六、 数据可视化 9
(一) 可视化大屏界面 9
(二)可视化详细设计 9
七、 总结和展望 18
八、致谢 20
参考文献 21
附录 各部分详细代码 22
引言
(一)背景意义
大数据技术的不断发展,已经广泛应用到社会的各个领域。随着国家的发展,人民经济收入提高,争相涌进城市买房生活。同时二手房地段较好,生活设施完善,选择面广,价格多元化也成为了许多人的购房选择。利于大数据的发展,大量二手房交易网站也随之产生。虽然二手房交易量快速增长,但是二手房市场的发展也存在很多的问题,一方面是供远远小于求,尤其缺少优质的二手房资源;另一方面交易成本太高 *51今日免费论文网|www.51jrft.com +Q: ^351916072*
,房产中介横行。所以基于大数据的二手房市场分析与可视化可以给人民提供帮助。
本次毕业设计以Request为基础运用爬虫技术进行数据采集,再使用Python进行数据预处理和分析,得到筛选和过滤后的数据,最后将数据通过Echarts绘制图表,实现数据的可视化。
(二)研究内容
本项目运用Python大数据技术爬取58同城二手房信息数据,进行预处理,分析和可视化。
首先是数据采集部分,使用Python爬取58同城中二手房数据,并将爬取的数据存储到文件中。数据处理部分,对爬取的数据进行数据清洗、去重处理、去空处理、删除不合理和错误的数据。数据分析部分,得到想要的数据后对数据进行统计分析、数据排序、分类汇总。数据可视化部分,将分析后的数据用EChart做出图表,进行图表展示。
图11 主要研究内容
关键技术介绍
本文涉及数据采集、清洗、分析、可视化等技术,下面进行详细介绍。
58同城数据可视化平台是基于Python的进行开发的,其中包括数据可视化、数据获取和存储,数据清洗和分析这几个功能模块。本章主要介绍实现职位信息分析可视化平台开发所需的几项关键的技术。
(一)开发语言
本系统使用的是Python语言进行开发,由于Python语言具有简洁易读以及可扩展等特性,这使得开源且工具包丰富的Python能够使用简单的工具实现简洁美观的可视化效果,下面简单介绍一下Python语言以及它的优点。
/
图21 2022年2月TIOBE指数图
(二)Request
Requests是基于Python语言编写的库,采用了 Apache2 Licensed 开源协议的 HTTP 库,可以与客户端交互,收集客户端的Form、Cookies、超链接,或者收集服务器端的环境变量。Request对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据,然后通过Request对象的相关方法来获取这些数据。Request的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。
(三)lxml
lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据。其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息。本系统使用lxml来对爬取下来的html做解析,定位指定的元素。
(四)EChart框架
ECharts可视化框架全称为Enterprise Charts,最初是百度内部开发的数据可视化工具,后来捐赠给Apache作为一个开源的Web跨平台框架。它的底层是依靠低耗能轻量级的Canvas类库Zrender,可以完美的兼容市面上的绝大部分浏览器,并且支持快速构建交互式图表。Echarts在拥有高能图像渲染能力的同时,还能够做到按照实际需求定义图标的内置类型,拥有很高的可扩展性。部分ECharts图例如下图21
/
图22 Echarts官网图示例
三、数据采集与存储
在进行数据采集之前,首先通过登录58同城,查看网站结构分析出需要的字段数据以及采集数据对策。该项目使用Request技术作为爬虫技术,设计对58同城房源的采集程序,创建效果如图31所示。
(一)结构分析
数据采集的网址:58.com/ershoufang。数据采集字段包括:房型、面积、房间朝向、楼层信息、建造时间、地点名字、总价、每平方价格等。
原文链接:http://www.jxszl.com/jsj/wlw/607583.html