高通量健康医学数据的数据库管理系统构建研究
目 录
摘要 I
ABSTRACT II
目 录 III
第一章 绪论 1
1.1课题的研究 1
1.1.1 课题的提出 1
1.1.2 课题的实施性 1
1.1.3 课题的价值及发展前景 1
第二章 系统相关软件介绍 3
2.1 R 3
2.1.1 R的发展历史 4
2.1.2 R的简介 4
2.1.3 R的功能 5
2.1.4 Rstudio 6
2.2 XAMPP 6
2.2.1 PHP 7
2.2.2 MySQL 7
2.2.3 phpMyadmin 8
第三章 系统设计 9
3.1 数据背景 9
3.2 数据导入 9
3.3 参数分析 10
3.4 正态QQ图 13
3.5 聚类分析 15
3.5.1 系统聚类法 15
3.5.2 动态聚类法 19
3.6 主成分分析 21
3.6.1相关的R函数 21
3.6.2 数据分析 23
3.7原始数据表格导入数据库 23
第四章 总结与展望 24
4.1总结 25
4.2展望 25
*51今日免费论文网|www.jxszl.com +Q: 3 5 1 9 1 6 0 7 2
谢辞 25
参考文献 26
外文资料翻译 28
第一章 绪论
1.1课题的研究
1.1.1 课题的提出
伴随着第二代测序技术的产生和高速拓展,大规模、高通量的测序数据应运而生,但是,高水平的医疗信息人才的相对缺少和高通量数据高效、便捷的处理又成为阻碍高通量发展壮大的一个难题。与此同时,全球范围各式各样的数据处理分析工具和数据库大量产生。
高通量测序技术(第二代测序技术)诞生后,实现快速发展,近年来,与第一代测序技术相比,具有速度快,精度高,成本低等多种优点,主要以454测序技术、Solexa测量技术以及SOLiD测量技术为代表.高通量测序技术在生命科学以及医学领域方面的研究越来越广泛[1]。
随着各类高通量组学数据的积累,尤其是健康医学数据亟待解决在线快速高效分析处理,以及数据模型及其数据库构建等技术问题。
本课题将以高通量组学数据,即高通量健康医学应用数据的整合和高效获取利用提供一定的借鉴途径。
1.1.2 课题的实施性
对于擅长处理结构化数据的关联式数据库管理系统来说,是很难去处理生物医学大数据的。但是,MySQL等新型数据库技术的出现为处理生物医学大数据提供了新的存储解决方案.如何优化新型数据库,更加智能化的存储生物医学大数据是目前的一大热门研究方向[2]。
本课题选用较MATLAB更加轻量级的R作为编程语言。其特点是占用内存小,运行速度快,并且具有强大的数据分析与绘图功能,这些特点对于本课题研究的优势明显。R拥有一套完整的数据分析、计算和作图软件系统,其在数组运算工具方面功能强大,在向量、矩阵计算方面功能更为强大;完整连贯的统计分析工具;而拥有与MATLAB同样优良的统计映射功能;如C和其他初级支承数据输入和输出,以及编程语言,可以实现分支,循环,用户定义的函数,以及其它功能。利用R语言提供的函数及经典算法,我们可以轻易实现对数据分析处理。
1.1.3 课题的价值及发展前景
高通量的研究思路和相关数据生产方式的飞跃是大数据产生的主要因素. 大数据经历着从概念到小范围技术实践, 最终到广泛接受并成为一个新兴研究方向的历程. 2008 年 9 月, Nature杂志率先出版了由Howe等人所发论文组成的 “大数据专刊”, 表明大数据的影响已触及自然科学、社会科学和工程学的各个领域[3]。
基因突变和碱基修饰等等,可能导致相关疾病的发展。个体的基因型也影响到个人的风险和药物代谢率相关的疾病痛苦。随着数据的积累,越来越多的疾病相关的突变被发现,在疾病的预测、诊断方面,个体化药物治疗变得日益重要。DNA序列分析测序短短的几十年,取得了惊人的进步,以Sanger方法为例,已经发展到第三代的高通量测序技术的个性化药物,遗传性疾病,癌症,产前诊断和鉴定微生物等,高通量测序领域的第一代测序技术为代表的技术显示出强大的功能的一些传统的测试项目有可能被测序,高通量测序技术所取代,以检验医学学科带来了新的机遇,使医药检查更加全面和深入发展[4]。
大数据的研究方法在生物医学研究的整合将在更大范围,更深层次,以改善人类的健康做出更大的贡献。至于有关生物医学仪器对数字和应用的出现高通量分析,海量的生物医学数据已经和正在生产,以充分利用深厚的生物学规律包含在大数据分析系统海量数据是至关重要的。生物医学大数据,大数据存储适应的软硬件平台。
大数据分析挖掘方法提出的,优化和应用,支持全系列的解构和相关的生物医学大数据的趋势分析和预测的深入研究,进一步有助于相关遗传性疾病,公共卫生,卫生和医学广泛的生物医学应用[5]。
第二章 系统相关软件介绍
2.1 R
R是一个开放的统计编程环境是一种语言,是S语言的实现。由AT&T贝尔实验室里克贝克尔,约翰钱伯斯和Allan威尔克斯S语言用于数据探索,统计分析的发展,测绘解释语言。最初S语言的实现版本主要是SPLUS。SPLUS是一个商业软件,其基于S语言,由科学Mathsoft公司的统计部进一步提高。 R是一款软件是一套完整的数据处理,计算和制图软件系统,其功能包括:数据存储和处理系统,对计算工具,完整和连贯的统计分析工具的阵列,优秀的统计制图功能,方便,强大的编程语言;可操纵的数据输入和输出,可实现分支,循环,用户定义函数[6]。
Auckland(奥克兰)大学的Robert Gentleman和Ross Ihaka及其他志愿人员开发了一个R系统,由R开发核心团队目前维护,他们是完全自愿的,勤奋负责,并提供给我们的世界上最好的统计软件包,我们可以通过R软件的网站(http://www.rproject.org)了解更多关于R的最新信息和说明,得到R软件和应用程序的基础上,R统计软件包的最新版本。
原文链接:http://www.jxszl.com/dzxx/txgc/48124.html