"景先生毕设|www.jxszl.com

主成分分析的基因互作研究

2021-02-24 15:47编辑: www.jxszl.com景先生毕设
摘 要 现在,基于单核苷酸多态性(single.nucleotide polymorphism,SNP)的全基因组关联分析(GWAS)已经成为人们对人类复杂性状统计分析研究的焦点,为人类研究基因结构及疾病生物病因带来了巨大的希望。尽管SNP已被广泛认为对人类性状具有独立的累加效应,且这一方法已经被证明是非常有效的,但最近一系列研究表明,众多复杂疾病如老年痴呆症,精神分裂症等单个SNP及其附近少数基因对其贡献很小,反而基因与基因之间的互作往往决定其表现型,这些复杂性状往往由环境和多个基因共同决定。当下,一些检验基因互作的算法已被陆续提出,包括多因子降维(Multifactor dimensional reduction)、贝叶斯网络(Bayesiannetworks)、集合关联法(Set-association approach)等。但其都有检测速度慢、检测准确率较低、假阳性较高等一定的缺陷,在这里,我们设计了一个基于主成分分析的基因互作研究方法,并用当下主流的GPU计算对其进行加速,最终得出加速前与加速后的加速比。
目录
第1章 基因互作研究 9
1.1 基因互作研究背景 9
1.2基因互作含义及分类 9
1.3基因互作研究现状 10
1.4 本项目研究目标 11
第2章 主成分分析 12
2.1主成分分析的基本思想 12
2.2主成分分析的数学模型与几何解释 12
2.2.1主成分分析的数学模型 12
2.2.2 主成分分析的几何解释 13
2.2主成分分析的计算步骤 14
第3章 GPU并行计算与编程 16
3.1 GPU并行计算发展背景 16
3.2 GPU并行计算技术 17
3.3 GPU编程 17
3.3.1早期GPU计算 17
3.3.2 CUDA编程 17
3.3 本项目采用GPU编程的原因 21
第4章 R简介 22
第5章 基因数据格式 23
5.1 基因(gene) 23
5.2 基因型(genetype) 25
 

 *51今日免费论文网|www.jxszl.com +Q: %3^5`1^9`1^6^0`7^2# 
5.3单核苷酸多态性(SNP) 26
5.4表现型(pheotypes) 27
第6章 算法说明与分析 28
6.1模型构建 28
6.2算法说明 29
第7章 程序实现 31
7.1 R语言实现: 31
7.2 CUDA C实现: 32
7.3运行截图 34
7.4实验结果 35
第8章 性能比较 37
8.1 运算时间比较 37
8.2 加速比 37
第9章 总结 39
9.1主要结论 39
9.2 展望未来 39
致谢 40
参考文献: 41
外文文献:.....................................................................................................................................42
第1章 基因互作研究
1.1 基因互作研究背景
上世纪90年代初,美国率先提出并领导实施了人类基因组计划,其宗旨在于测定人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。进入二十世纪后,随著人类基因组计划的测序工作的完成,生物数据发生了指数级的增长进而使得生物信息学成为了目前计算机技术科学和生命科学的研究热点及重点之一,同时使得全基因组关联研究(GenomeWide AssociationStudies, GWAS)进入了人们的视野,吸引了大量研究人员的关注。
GWAS 以“常见疾病,常见变异”的假设为理论基础,以探求单个SNP与某一疾病的关联。2005 年,关于年龄相关性黄斑变性,研究人员在《科学》上首次发表了的一篇GWAS 文章,拉开了复杂性状疾病GWAS的序幕。之后,关于各种复杂疾病的GWAS研究走上快车道,众多与复杂疾病或性状相关的SNP陆续被发现,取得了骄人的进展。但由于复杂疾病的发病机制十分复杂,更多的实验结果与研究发现,众多复杂疾病的性状受到两个或多个位点的相互作用影响。目前的全基因组关联分析(Genome.wide association study,GWAS)仅仅解析单个SNP位点对疾病易感性的贡献,单纯依靠这一种策略并不能在寻找复杂疾病的病因上得到根本性的突破。反而SNP 或基因互作效应在解释基因变异映射关系或复杂疾病上体现了日益重要的作用。至今基因交互作用已被科学实验证实真实存在。对精神分裂症、老年痴呆症、宫颈癌等复杂疾病的研究均证明了基因一基因相互作用可能是复杂疾病致病的主要因素之一。上位性检测,即单核苷酸多态性(SNPs)之间或基因间互作检测应运而生,成为研究人类复杂疾病遗传体系的一个重要组成部分,也是全基因组关联研究的关键环节之一。
1.2基因互作含义及分类
基因互作,也即上位性检测,是指两个或多个基因或SNP相互作用共同决定表现型。其互作类型大致可分为以下几个方面:
1.互补效应(complementary effect)
两对非等位基因同时控制一性状,都两对基因都存在显性基因时,表现为一种性状,当只有一对基因是显性,或两对基因都是隐性时,则表现为另一种性状。F2产生9:7的比例。
2.积加效应(additive effect)
两种显性基因同时存在时产生一种性状,单独存在时能分别表示相似的性状,两种基因均为隐性时又表现为另一种性状。F2产生9:6:1的比例。
3.重叠效应(duplicate effect)
两对或多对独立基因对表现型能产生相同的影响。重叠作用也称重复作用,只要有一个显性重叠基因存在,该性状就能表现。F2产生15:1的比例
重叠基因:表现相同作用的基因。
4.显性上位作用(epistatic dominance)
上位性:两对独立遗传基因共同对一对性状发生作用,其中一对基因对另一对基因的表现有遮盖作用;
下位性:与上述情形相反,即后者被前者所遮盖。
显性上位:起遮盖作用的基因是显性基因。F2的分离比例为12:3:1。
5.隐性上位作用(epistatic recessiveness)
在两对互作的基因中,其中一对隐性基因对另一对基因起上位性作用,此上位作用与显性作用不同,上位性作用发生于两对不同等位基因之间,而显性作用则发生于同一对等位基因的两个成员之间。F2的分离比例为9:3:4。
6.抑制作用(inhibiting effect)
显性抑制作用:在两对独立基因中,其中一对显性基因,本身并不控制性状的表现。但对另一对基因的表现有抑制作用,称这对基因为显性抑制基因.F2的分离比例为13:3。
1.3基因互作研究现状
不同与基于单位点SNP的GWAS研究,基因互作研究涉及多个SNP或基因,给计算量带来的爆炸式的增长,给我们的算法研究带来了巨大挑战,复杂性状真正成为了“复杂”性状。尽管面临着巨大挑战,我们的研究人员人们将各种机器学习、统计方法等方法应用到该研究中,提出了很多用于基因互作研究检测问题的算法和模型、在探究SNP与SNP、基因与基因之间互作效应的方法学上取得了较大的进步。

原文链接:http://www.jxszl.com/dzxx/dzkxyjs/48168.html