"景先生毕设|www.jxszl.com

web日志的数据挖掘研究

2021-02-25 10:42编辑: www.jxszl.com景先生毕设
摘 要
目 录
摘要 I
ABSTRACT II
第1章 绪论 1
1.1 研究背景 1
1.2 Web日志挖掘研究现状 2
1.3 研究内容与思路 2
第2章 数据挖掘与Web挖掘 3
2.1 数据挖掘 3
2.2 Web数据挖掘 3
第3章Web日志挖掘的必要性 6
3.1 Web数据挖掘现状 6
3.1 Web日志挖掘的必要性 6
第4章Web日志挖掘的模型 8
4.1 Web日志挖掘的过程 8
4.1.1 数据采集 8
4.1.2 数据预处理 10
4.2 Web日志挖掘算法研究 11
4.2.1 聚类 11
4.2.2 关联规则 11
4.3 模式分析 12
第5章 Web日志挖掘在用户体验优化的应用 12
5.1 网站优化服务模型 12
5.2 优化服务实现过程 13
5.2.1 数据预处理 13
5.2.2 日志挖掘分析过程 14
5.2.3 用户体验的优化 20
第6章结束语 21
ABSTRACT
Articles of data mining, Web data mining, Web log mining and other related theories overview, clarify the importance and necessity of the current use of Web log mining. Then the Web log mining for a certain amount of research, details of Web log mining process: data collection, data preprocessing, algorithm implementation, pattern recognition. Because of the im
 

 *景先生毕设|www.jxszl.com +Q: ^3^5^1^9^1^6^0^7^2^* 
portance of data preprocessing, this article focuses on the Web mining pretreatment process and specific algorithm. The use of Web log analysis tools Web log files are analyzed by the resulting website spider, page views, IP access, access status code, search keywords, etc. to optimize the user experience, achieve website optimization.
Key words: data mining ; Web log ; data preprocessing; website optimization
第1章 绪论
1.1研究背景
随着网络的快速迅速发展,人们越来越依赖网络进行学习和工作,每天都会积累海量的数据。很多数据对我们来说没有意义,我需要的是数据中隐含的信息。但是,传统的数据库技术只是注重数据的保存与查询,对象也都是结构化的数据,而对非结构化数据分析的能力还不足。
知识发现(Knowledge Discover in Database,KDD)就是在这样的情况下出现的,应用数据库技术和人工智能技术,用数据库来储存数据,用机器方法来分析数据,以达到挖掘数据中有用信息的目的。从KDD出现后,数据挖掘(Date Mining)也越来越多的人到关注。在意思上,这两者是相同的。而在具体情况下,两者有区别。研究认为知识发现是从数据中发现知识的整个过程,而数据挖掘只是知识发现的一个重要组成部分[1]。
近年来,随着科技和信息的快速发展,互联网受到越来越多人的喜爱和使用,互联网成了全球最大的信息来源,也是人们生活和学习不可或缺的一部分。现在,每个网站每天要处理大量的信息和积累大量的数据。随着数据的指数增长,我们已处于大数据的时代,这些数据背后往往隐藏着我们需要的有用的信息。面对海量的信息,人们如何快速找到自己想要或有价值的信息[2]。Web数据的挖掘分析速度跟不上人们对于信息的需求,人们希望简单,便捷的进行数据的挖掘,关注的不是其中的过程,而是想要得到期望的结果,由此出现了很多数据分析工具。因为Web日志文件的稳定,完整的特点,对Web日志挖掘的研究日益增多[3]。
在Web数据挖掘领域中,Web使用挖掘即Web日志挖掘在网站结构优化和页面内容重组发挥了很大的作用,可以提高网站的竞争力,因此人们对Web日志挖掘越来越关注[4]。Web日志挖掘是利用数据挖掘技术对Web日志文件进行挖掘,获取用户访的兴趣爱好和访问习惯。
目前,Web日志挖掘的算法很多,多数都存在一定的不足,具体体现如下:
(1)Web日志挖掘中的聚类算法是按照相似程度来进行分类的,标准不明确,所以分类的结果可能存在不准确性[5]。
(2)聚类分为用户聚类和页面聚类,是以相同用户访问的页面和访问相同页面的用户为分类的标准,而忽略了两者之间的关联。
(3)很多Web日志挖掘算法太过繁杂,而且拓展性不好。
1.2 Web日志挖掘研究现状
从研究到方向,现在对Web日志数据挖掘的研究大致可以分为三个方向:分析系统性能;改进系统设计;理解用户意图。由于研究的方向不同,想要到达目的不同,所以要应用不同挖掘数据技术[6]。
Web日志挖掘具有广阔的发展和应用前景,为了能更深入的Web日志挖掘技术应用于各个领域,还有许多问题有待解决。未来前景较大的几个方面:
(1)网站个性化优化研究;
(2)在电子商务智能的研究;
(3)提高Web日志挖掘算法效率的研究;
(4)站点自适应的研究。
1.3 研究内容与思路
本文主要研究内容有:
第二章对数据挖掘,Web数据挖掘,Web日志挖掘等相关理论进行介绍,以及Web数据挖掘的三大分类:Web内容挖掘、Web结构挖掘和Web使用挖掘。
第三章描述在当前使用Web日志挖掘技术的重要性和必要性。

原文链接:http://www.jxszl.com/jsj/xxaq/48345.html