二手房场分析及可视化(附件)【字数:7238】
目 录
一、 引言 1
(一) 背景意义 1
(二) 研究内容 1
二、 关键技术介绍 1
(一) Python(本次代码程序设计的语言) 1
(二) Scrapy(本次数据爬取的架构) 1
(三) Pandas 2
(四) PyCharm(本次代码的开发环境) 2
(五) ECharts 2
三、 链家在徐州二手房的网站分析 2
四、 链家在徐州二手房的网站数据采集、清洗与存储 3
(一) 创建lianjia_home项目目录 3
(二) 编写item(数据存储) 4
(三) 编写spider(数据抓取) 4
(四) 编写pipelines(数据处理) 5
(五) 编写settings(爬虫设置) 6
(六) 编写start 6
五、 链家在徐州二手房的网站数据可视化 7
(一) Home.csv数据生成序号 7
(二) 创建homedata进行数据分析 8
(三) 数据图表 9
(四) 数据可视化大屏 15
六、 总结和展望 15
(一) 总结 15
(二) 展望 16
七、 致谢 17
参考文献 18
*51今日免费论文网|www.51jrft.com +Q: #351916072#
附录 各部分详细代码 20
引言
用于介绍,链家在徐州二手房的网站各项数据是如何爬取,如何展示大数据可视化,以及研究的为主要目的。
背景意义
当今社会,人们对住房的需求越来越高,特别是对二手房的住房需求。由于每户二手房里面的详细信息不一样。消费者容易出现选择的失误。特别是房屋价格,与消费者想要的东西不匹配。对大多数消费者来说,房子是一个一次性的消费产品。一次选错往往会代表一生的后悔。所以本文将会对,链家在徐州二手房的网站数据进行采集,清洗,分析,可视化来向消费者展示二手房的相关数据,以免选择出现失误。
研究内容
本论文将通过使用Scrapy技术,来对,链家在徐州二手房的网站,进行网站的分析和数据爬取。然后再进行数据清洗。把数据存放到相应的CSV文件里。然后,把这些数据进行分类汇总、统计、排序、计算等,最后把数据放入写好的HTML里面进行图表转换,可以通过图表来分析出哪些相对划算,并且相对合适,还能知道房价的多少。
关键技术介绍
Python(本次代码程序设计的语言)
Python是世界上最广泛使用,并且最受欢迎的通用编程语言之一。Python支持多种规范编程,比如指令式、结构化、函数式、反射式、结构化和面向对象编程。Python拥有自动管理内存的能力。并且有动态清理垃圾和回收的能力。Python有一个广泛而巨大的标准库。Python语言结构,可以让程序员更清晰,并合乎逻辑的写小型,大型代码。
Python非常强调语言的简洁性,相比于Java和c语言,可以用更少的代码表达出更准确的想法。
Python解释器几乎可以在所有的操作系统上运行。Python的官方解释器CPython是用C语言编写的,它是由一个自由开源的社区驱动。目前由Python的基金会管理。
Scrapy(本次数据爬取的架构)
Scrapy架构是用Python编写的网络爬虫架构,自由且开源的。这个架构的设计初衷是用于网页的数据爬取。也可以使用API来提取数据。或者作为生成目的的网络爬虫。目前这个架构的开发和服务是由Scrapinghub公司进行维护。
Scrapy这个项目,目前是围绕着“蜘蛛”(spiders)构建,蜘蛛是会提供一套指令,这条指令里面包含爬去网络程序(crawlers)。并且遵循着其他比如Django框架的一次只有一次的精神。是允许开发者使用代码进行拓展和构建大型的爬网项目。Scrapy也是一个可以提供爬网shell,开发者可以用Scrapy来测试对网站的效果。
使用Scrapy有很多知名的公司,比如Pares.ly,Lyst,Sayone Technologies,Data.gov.uk世界政府网站数据。
Pandas
Pandas在计算机编程中,是Python编程语言用于数据操纵并分析的软件库。Pandas可以提供操纵时间序列和数值表格的数据结构和运算操作。Pandas是三条款BSD认证许可下发行的自由软件。Pandas的名字是衍生于“面板数据”(panel data)术语,这个是计量经济学的数据集术语 Pandas包含了对同一个物体,在多个时期上的观测。Pandas的短语是“Python data analysis”自身的文字游戏。
Pandas最主要的目的还是用于数据的分析。Pandas可以允许很多的文件格式,比如说JSON、CSV、Microsoft Excel、SQL等,都可以导入数据库。Pandas可以运行并操纵运算的操作,比如说选择、归并、再形成。Pandas还有数据加工和数据清洗的特征。
PyCharm(本次代码的开发环境)
PyCharm是一个用于计算机编程的集成开发环境(IDE),PyCharm主要是用于针对Python的语言开发。PyCharm是由捷克的一家公司叫JetBrains开发。PyCharm可用于提供代码分析,集成测试平台,图形化调试器,集成版本控制系统,还支持使用Django用于进行网页开发。
PyCharm是一个跨平台的开发环境,PyCharm拥有很多的版本,比如macOS、Linux和Microsoft Windows版。PyCharm的社区版是在Apache许可证下发布。PyCharm还有专业版,在专门的许可证下发布。PyCharm专业版有比PyCharm社区版,拥有更多额外的功能。
原文链接:http://www.jxszl.com/jsj/wlw/607569.html