机器学习鲍鱼数据分析【字数:9813】
目录
1. 绪论 6
1.1毕业设计背景及意义 6
1.2机器学习 6
2. 开发环境的介绍 7
2.1 Python 语言 7
2.2 Python 语言中的类与对象 7
2.3 Anaconda软件介绍 8
3. 数据预处理 9
3.1 标准库的导入 9
3.2 数据集的导入 10
3.3 数据分类 12
3.4 创建训练集和测试集 13
3.5 特征缩放 14
4. 回归算法 17
4.1 多元线性回归 17
4.1.1 基本原理 17
4.1.2 概念 17
4.2 自变量与因变量的关系 18
4.2.1 鲍鱼长度与鲍鱼环数之间的关系 20
4.2.2 鲍鱼直径与鲍鱼环数之前的关系 20
4.2.3 鲍鱼高度与鲍鱼环数之间的关系 21
4.2.4 鲍鱼总重量与鲍鱼环数之间的关系 21
4.2.5 鲍鱼剥壳重量与鲍鱼环数之间的关系 22
4.2.6 鲍鱼内脏重量与鲍鱼环数之间的关系 22
4.2.7 鲍鱼壳重与鲍鱼环数之间的关系 23
4.2.8 本节小结 23
4.3 建立模型 24
4.3.1 模型训练 24
4.3.2 模型预测 24
4.3.3 选择自变量 29
4.4反向淘汰法算法 28
*景先生毕设|www.jxszl.com +Q: ¥351916072$
5. 总结 35
参考文献 36
致谢 37
1.绪论
1.1毕业设计背景及意义
通过对鲍鱼壳环数的研究预测鲍鱼的年龄是传统方法,该方法需要把贝壳切割开来,对椎体进行染色,再在显微镜下人工观察、读取环数。操作繁琐,误差大。所以需要寻求一种高效的求取鲍鱼壳环数的替代方法,因此本文重点研究了通过机器学习建模预测鲍鱼壳环数的方法。
1.2机器学习
人工智能的一个核心探索领域是机器学习,它是运用潜力最明显的领域之一,并且担任着相当重要的角色。这些年,欧美等各个国家越来越重视机器学习的研究与应用,并且在上面花费了大量的人力和物力,Intel、IBM、波音、微软、通用电器等大型公司也相继加入到该领域的研究和开发当中,并且都取得了不错的成果。据美国科学引文检索公司统计,2004年在该学报里作用因素最高的是计算机类期刊。需要特别说明的是,《ACM计算综述》每年只发表12篇世界级权威计算机专家关于某个研究方向最新研究进展的综述文章,一般并不发表研究论文,2004年其作用因素为10.037。
和大多数新兴学科一样,机器学习同样是许多学科相互学习与借鉴的产物,它吸取了人工智能、概率统计、计算复杂性理论、等学科的优点。实验表明,机器学习在很多应用领域方面表现出了相当重要的实用价值,特别是在数据挖掘、语音识别、图像识别、机器人、车辆自动驾驶、生物信息学、信息安全、遥感信息处理、工业过程控制等范畴都 取得非常好的成果。
2.开发环境的介绍
2.1 Python 语言
2.2 Python语言中的类与对象
在设计面对对象的时候,程序员可以任意地创造新的模板,并且能够描述每个对象包含的数据和通过这些新的数据时的模样,这种模板称为类。类就是对一些对象的概括,而且隐蔽了对象内部繁琐的构造和实现它们的代码。类由变量和函数两个部分组成,类中的变量称为成员变量,类中的函数称为成员函数。把一类本质相同的事物叫做类,其中用一样的属性(其实就是变量)叙说,里面封装了相同的措施。比如,汽车是一个类,它包含价格、品牌等特性。那么需要打印某一辆车的价格和品牌,只需要使用一句代码 print "the cars type‘ford’,price:280000",但是当需要对一百个品种的车打印这句话的时候,怎么办呢?这个问题可以通过以前学过的函数式编程就可以实现啦!只需要写一个函数,然后将不同的车品牌和价格以参数的方式传到函数里就好了。这样大大的提高了代码的重用性,就不需要把同样的print这句话写100次了。但是同样的功能,用类也是可以实现的,怎么实现呢?如下图:
/
图2.1代码解释图
这里结合代码来解释什么叫做类和对象,从图2.1知道,ford和passat都是一种车,不同的车又有不同的品牌、价格。所以在这里,“car”就是“类”,表示“车”这一类事物,它有很多属性,比如型号、价格等等。而passat和ford都是车的一种,它是具体的,有固定的品牌和价格,所以passat是car的一个对象,ford是car的另一个对象。
2.3 Anaconda软件介绍
Anaconda是特地为了容易使用 Python进行数据科学研究而建立的一组软件包、环境管理器。它包括了Conda、Python等180多个科学包及其依附项,并且可以用于在同一个机器上安装不同版本的软件包及其依附,并可以在不同的条件之间切换。可以把Anaconda当作是软件包管理工具,拥有安装、卸载、更新、查看、搜索等很多有用的性能,单纯的鼠标操作就可以达成包管理,而不用我们来关心各种依赖和文件路径的状况,特别简便快速。本文将在Spyder中运行程序,观察结果,此时Spyder里也分三块区域:Python编写程序区、Python变量与文件观察区、以及Python运行结果显示区。
3.数据预处理
3.1 标准库的导入
Python语言本身包括很多标准程序库,这是它众多优势之一,因此用户在开发编程中,不需要继续编写很多很长的代码,直接调用标准程序库就行了,这样不仅方便和快捷,而且还大大提高了提高产品的开发效率。
原文链接:http://www.jxszl.com/dzxx/dzkxyjs/557081.html
最新推荐
热门阅读