"景先生毕设|www.jxszl.com

区域二手商品行情的数据采集与分析(源码)

2021-05-08 15:55编辑: www.jxszl.com景先生毕设
随着网络的快速发展和广泛应用,人类不知不觉已经来到了大数据时代,各行各业都充斥了无数的数据。如何从海量数据中收集有价值的数据资料,并进行分析研究,是数据人员及市场研究人员所面临的一个问题。要先收集到数据,才能进行数据的分析研究工作。没有数据的话,有些数据分析工作也就无法进行。因此,急需高效灵活的爬虫来解决这些数据抓取问题。有了爬虫,互联网上的各种信息都可以被爬虫迅速捕捉到,并被自动收集。本课题使用基于Python的网络爬虫系统,抓取58同城网站上北京地区的二手商品信息,实现对目标数据的有效抓取。爬虫程序为了更深层地研究分析数据,必须先将它接收到的数据储存在本地数据库MongoDB数据库中。数据的展示和分析采用的是 Django Web框架。关键字 网络爬虫,定向爬取,可视化,数据分析但是,JumpStation和WWWWorm的搜索结果只能单纯按照搜索工具在数据库中找到的符合要求的数据的顺序进行排序,因此不存在任何信息相关性。Repository-Based Software Engineering (RBSE)则首次在搜索结果中引入了关键字字符串匹配度概念。1994年7月,Michael Mauldin创造了Lycos。同年的4月份,Yahoo出现了。Yahoo是由斯坦福大学的两名博士生David Filo和美国华人杨致远(Gerry Yang)共同创建的[8]。Yahoo的出彩之处在于它的超级目录索引,这就让搜索引擎的概念得以为人们所熟知。至此,搜索引擎终于开始达到高速发展的阶段。如今在互联网上出名的诸如百度之类的搜索引擎已经有上百个了,他们检索到的信息量也大大超过了从前。例如,近期发展迅速的谷歌拥有庞大的30亿页网页数据库。
目 录
1 绪论 1
1.1 课题背景 1
1.2 国内外研究现状 1
2 需求分析 3
2.1 可行性分析 3
2.2 功能需求分析 4
3 系统设计 5
3.1 网络爬虫的模块设计 5
3.2 数据库逻辑结构设计 7
3.3 相关技术选择 8
4 系统的详细设计与实现 9
4.1 数据采集 9
4.2 数据清洗 1 *51今日免费论文网|www.jxszl.com +Q: ^351916072
4
4.3 数据可视化 16
5 系统测试及结果 22
5.1 系统测试 22
5.2 功能测试 26
5.3 测试结果 31
总结 36
致谢 37
参考文献 38
1 绪论
1.1 课题背景
自古以来数据就包含无限的价值,而今随着网络的发展,互联网也变成了一个巨大无比的非结构化数据库。对数据进行有效的检索和组织,将成为一个巨大的应用市场。搜索引擎应运而生,成为帮助人们搜索数据和信息的一个工具。谷歌,百度等通用搜索引擎逐渐成为互联网的入口。然而,因为它是通用的,所以不同领域和不同背景的用户都使用同一个搜索引擎,但是却有不同的搜索目的和要求。使用通用搜索引擎搜索出来的结果往往还带有一些浏览网页者并不喜欢的网页,用户并不需要这些。而且通用的引擎在抓取网页时没有针对性,更加也就无法对其抓取的结果来进行特定分析了,这就造成了不够深入和专业化的查询结果,导致信息的大量过载。
网络爬虫其实是一段程序,能够自动爬取网页中的各类数据并直接返回,返回的数据就是用户所直接需要的数据,也不用人工来操作浏览器。对搜索引擎来说,爬虫程序是一种更有针对性的数据收集。网络爬虫程序的作用在于它能够把网络上的信息合并起来供搜索引擎参考,并且能够作为一个能够收集特定信息的载体,收集特定网站下的特定信息,例如招聘信息、买卖信息。鉴于此,我将采用基于Python编写的能够收集各行各业的一些杂乱庞大信息的基本网络爬虫系统,并总结分析出许多有用的有价值的数据。少量的数据似乎没有多少价值,但一旦我们可以获得某些行业领域的大量信息,并且是可以实时更新的,那么我们就能通过分析这些数据,了解这个行业的过去、现在与未来。
本课题是对区域二手商品行情的数据采集与分析。即如果选用爬取58同城上北京地区的二手商品行情,则可以根据爬取到的数据来了解全国的二手商品市场行情,和各地区的竞争力排名,还能对地区各类二手商品行情进行简单预测。这些数据经过分析和处理后,才能成为有价值的数据[11]。从事数据分析、数据处理的人员,可以使用本课题的爬虫程序,能有效节省他们的开发时间,帮助他们对大量数据进行针对性提取,使他们能够更专注于数据分析。总之,通过这些数据的可视化展示,对该行业的数据采集和分析具有重要的价值。
1.2 国内外研究现状
网络爬虫的研究始于20世纪90年代。1990年出现的阿奇(Archie)算得上是世界上第一个搜索引擎,它是由蒙特利尔大学学生Alan Emtage发明的。Archie可以做到搜索以及定位到互联网上的文件,进而索引到用户想要获得的相关信息,只要使用特定的表达式。美国的内华达系统计算服务大学根据Archie的工作原理,开发了另一种既能索引文件,又能检索网页的搜索工具[6]。
那时,“机器人”这个术语在程序员中非常流行。一台电脑“机器人”就是一个软件程序,它以人类无法达到的速度执行任务,且不会中断。“机器人”程序在工作时,就像一只蜘蛛在爬来爬去检索信息。因此,就被形象的称为“蜘蛛”程序。World wide Web Wanderer是世界上第一个能检索网站链接的“机器人”程序,是Matthew Gray创建的[7]。而到了1993年10月的时候,又有一个叫Martin Koster的程序员开发了ALIWEB,ALIWEB类似于Wanderer,不同的是,它不再使用“蜘蛛”程序,它有自己专门的链接索引,通过网站自己主动提交上来的信息来建立,现在的雅虎工作原理跟ALIWEB很像。
互联网的发展实在太迅猛,不断出现各种新的网页,网页已经变得越来越难以检索。因此,程序的编写者们开始改进传统的“蜘蛛”概念的程序。他们认为,既然网页可以链接到其他网站,那么是否可以通过一个网站就链接追踪到另一个网站乃至搜索链接到整个互联网。于是,到了1993年底,出现了各种搜索引擎。其中比较出名的有JumpStation、The World Wide Web Worm(Goto的前身也就是今天的Overture),和RepositoryBased Software Engineering (RBSE) spider[9]。
但是,JumpStation和WWWWorm的搜索结果只能单纯按照搜索工具在数据库中找到的符合要求的数据的顺序进行排序,因此不存在任何信息相关性。RepositoryBased Software Engineering (RBSE)则首次在搜索结果中引入了关键字字符串匹配度概念。1994年7月,Michael Mauldin创造了Lycos。同年的4月份,Yahoo出现了。Yahoo是由斯坦福大学的两名博士生David Filo和美国华人杨致远(Gerry Yang)共同创建的[8]。Yahoo的出彩之处在于它的超级目录索引,这就让搜索引擎的概念得以为人们所熟知。至此,搜索引擎终于开始达到高速发展的阶段。如今在互联网上出名的诸如百度之类的搜索引擎已经有上百个了,他们检索到的信息量也大大超过了从前。例如,近期发展迅速的谷歌拥有庞大的30亿页网页数据库。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/64121.html