58同城二手房数据分析与可视化系统(附件)【字数:5893】
目录
一、 引言 1
(一)选题背景和意义 1
(二)研究内容 1
二、关键技术介绍 2
(一)Requests 2
(二)csv 2
(三)BeautifulSoup 3
(四)数据可视化技术 3
三、数据采集与存储 3
(一)结构分析 3
(二)制定反爬策略 4
四、数据清洗 4
(二)数据一致处理 4
(三)数据去空处理 4
(四)保存清洗数据 5
五、数据可视化 6
(一)数据大屏一 6
(二)数据大屏二 12
六、总结 17
致 谢 18
参考文献 19
附录 20
引言
(一)选题背景和意义
课题研究的背景是:随着计算机,互联网,互联网的飞速发展,房地产行业也发展迅猛,从传统的房源信息发布向互联网信息发布方向转型,呈现出日新月异的发展面貌。互联网已经成为人们浏览房产信息,查阅交易状态的最大载体,为了能够在海量的房产信息中最大可能地检索到自己所需要的房产和房型信息。利用搜索引擎技术查找市场上出售的房源已经成为人们的必然选择。
课题研究的意义是:课题研究的意义是希望通过引入网络爬虫技术解决传统搜索引擎在分析房源信息存在的不足,通过python语言和 *51今日免费论文网|www.51jrft.com +Q: ^351916072#
相关的大数据开发框架,为用户提供一个抓取二手房交易信息的大数据平台,为人们提供更加精准科学的分析工具,同时输出的相关结果为二手房买家提供参考。
当前二手房行业呈现出火爆发展的态势,如下图,最近几年来大中城市成交量变化,但是在海量的二手房信息中,人们很难检测到适合自己经济支出以及需求的房源信息。同时,对于二手房交易市场的发展态势,人们也缺乏相应的了解。通过大数据技术,能够对相关的二手房交易网站的数据信息进行采集,按照区域和户型为用户展示不同的分析结果,对用户二手房交易的决策具有一定的参考价值。
(二)研究内容
本文采用Requests爬虫获取去58二手房网站数据,采用Pandas进行数据清洗还有分析,采用header、time这些来完成数据可视化数据采集与制作。数据采集部分包括取面积,房间朝向,房源地理坐标,楼层信息,建造时间和名字等信息;数据清洗部分包括:对缺失值,重复值的处理;数据分析部分包括:房源信息重复的关系等;可视化部分包括:将分析出的结果进行可视化展示。
/
图11大屏一数据图
/
图12大屏二数据图
二、关键技术介绍
本文涉及数据采集、储存、分析、可视化等大数据的技术,采用python,下面进行详细介绍。
(一)Requests
Requests使用Python语言编写,客户端先向服务端发送Requests,接受返回的Requests,URLlib提供Requests,提前构造,然后通过URLlib发送请求,满足测试,完成特定的timeout,加入header,设置Cookie,防止被识别为程序抓取,设置时间限制退出。
(二)csv
csv(Comma Separated Values)格式比较常见,python自带了csv模块提供用户对csv文件进行读写操作,我用于第三方csv储存。
要对csv文件进行写操作,首先要创建一个writer对象来当保存器,参考help(csv.writer),情况如下
soup = BeautifulSoup(page_text, html.parser)
csv_file = open(city + "_58二手房.csv", "a+", newline="", encoding="utf8")
writer = csv.writer(csv_file)
(三)BeautifulSoup
BeautifulSoup它为我们提供了一些简单的、pytho式的函数用来处理导航、搜索、修改分析等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因此,它不需要多少代码就可以完成一个完整程序。
from bs4 import BeautifulSoup
(四)数据可视化技术
数据分析完成之后,就需要通过数据可视化展示结果。数据可视化采用PyECharts可视化大屏界面。
1、可视化大屏界面
可视化大屏使用的是PyECharts模块,将景点等级饼图和评论词云图、热度柱状图、分布地图、热度折线图都集中到页面中完成了分析的可视化部分[7]。本部分分为两个大屏。
三、数据采集与存储
此系统的重难点在于对数据的爬取和处理,以下内容将分析此过程中存在的技术难点以及如何解决的方法。
(一)结构分析
1、网站
目标网站https://guanyun.58.com数据采集字段包括:面积、朝向、楼层、建造时间、地点方位、名字、地址等信息。
2、网站爬取分析
原文链接:http://www.jxszl.com/jsj/wlw/607568.html