"景先生毕设|www.jxszl.com

校园网用户行为分析系统设计(源码)

2021-04-11 16:38编辑: www.jxszl.com景先生毕设
为了挖掘出高校学生上网兴趣爱好,为高校学生管理人员提供用户行为引导等工作提供建议,通过从雅虎目录等导航网站中爬取到的43351个URL描述内容形成四分类的语料库,采用基于N-Gram和TF-IDF度量方法以及朴素贝叶斯分类算法构建分类器,该分类算法取得了良好的效果,实验取得了电脑网络87%的识别率,生活服务95%的识别率,文化教育92%的识别率,娱乐休闲86%的识别率。通过对学生上网记录下来的URL按一定规则进行切分,直至能爬取到页面title, description, keywords等内容,由分类器确定分类,其准确率满足所设阈值将URL和URL描述内容扩充至训练集。经过分析,对167万多条上网数据能确定123万多条具体分类,占总数的73.6%,为学生上网行为的分析与管理提供了较好参考价值的系统模型。关键词 行为分析 特征提取 URL分类 分类算法 爬虫
钱凯同学严格按照任务书要求通过从雅虎目录等导航网站中爬取到的43351个URL描述内容形成四分类的语料库,采用基于NGram和TFIDF度量方法以及朴素贝叶斯分类算法构建分类器,该分类算法取得了良好的效果。实验取得了电脑网络87%的识别率,生活服务95%的识别率,文化教育92%的识别率,娱乐休闲86%的识别率。通过对学生上网记录下来的URL按一定规则进行切分,直至能爬取到页面title, description, keywords等内容,由分类器确定分类。系统经过分析,对167万多条上网数据能确定123万多条具体分类,占总数的73.6%,为学生上网行为的分析与管理提供了较好参考价值的系统模型。
能够严格按照学校的论文规范化要求完成毕业设计报告的撰写,结构清晰,内容完整,语言通顺,表达清晰,主旨明确。
可以提交答辩;建议成绩为优秀。
指导者(签字):



毕业设计说明书(论文)中文摘要
为了挖掘出高校学生上网兴趣爱好,为高校学生管理人员提供用户行为引导等工作提供建议,通过从雅虎目录等导航网站中爬取到的43351个URL描述内容形成四分类的语料库,采用基于NGram和TFIDF度量方法以及朴素贝叶斯分类算法构建分类器,该分类算法取得了良好的效果,实验取得了电脑网络 *景先生毕设|www.jxszl.com +Q: ¥351916072
87%的识别率,生活服务95%的识别率,文化教育92%的识别率,娱乐休闲86%的识别率。通过对学生上网记录下来的URL按一定规则进行切分,直至能爬取到页面title, description, keywords等内容,由分类器确定分类,其准确率满足所设阈值将URL和URL描述内容扩充至训练集。经过分析,对167万多条上网数据能确定123万多条具体分类,占总数的73.6%,为学生上网行为的分析与管理提供了较好参考价值的系统模型。
关键词 行为分析 特征提取 URL分类 分类算法 爬虫
毕业设计说明书(论文)外文摘要
Title Analysis System Design on University
Students’ Network Behavior
Abstract
In order to help administrator to find out the interests of students in college, the system is designed and implemented. The system defined four classification corpus from the 43351 description of URL that are crawled from the Yahoo directory website and other navigation website, and the classification algorithm based on NGram and TFIDF and naive Bayesian has achieved good effect. The experiment achieved 87% recognition rate of computer network, 95% recognition rate of life service, 92% recognition rate of culture and education, 86% recognition rate of entertainment. The system cut the URL according to certain rules, and get the page’s title, description, keywords, the classification algorithm determine the classification of the URL, if the accuracy rate of the URL is greater than the threshold, the URL content and classification are expanded to training set. After analysis, 1.67 million Internet data can be identified more than 1.23 million specific categories, accounting for 73.6% of the total. The result can provide a better reference value of the system model for administrator.
Keywords Surfing habits, Feature extraction, URL Classifier, Classification Algorithm, Crawler

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/59271.html