"景先生毕设|www.jxszl.com

mrmr原则和优化svm的拟南芥磷酸化网络的链路预测

2021-03-26 13:14编辑: www.jxszl.com景先生毕设
本文以支持向量机的方法为核心,首先将拟南芥蛋白质的序列转换成可以用计算机处理的数字矩阵形式,即以潜在的磷酸化位点为中心向两边各自延伸25个氨基酸形成一个序列窗口,作为SVM训练的样本数据。本实验选取阴阳性数据各2000例,用三种特征选取方法建立特征矩阵,再通过mRMR和PCA的方法对特征进行降维处理,我们使用libSVM工具箱对拟南芥阴阳性数据进行分类。最后我们分析出,使用氨基酸组成加上残基偶联的特征分类效果最好,而经过PCA处理后,虽然准确率略微下降,但是计算复杂度大大减小。最后,本实验还提取了蛋白质互作的信息,选取阴阳性蛋白质各185条以及18406维蛋白互作特征,以此为基础建立了蛋白质阴阳性判断的SVM分类器[21],经过测试得到准确率为50.5%。
目录
摘要 1
关键词 1
Abstract: 1
Key words: 2
1 材料与方法 2
1.1 实验数据和相关工具 2
1.1.1 实验数据 2
1.1.2 实验工具 2
1.2 数据预处理 2
1.3 蛋白质序列特征提取 3
1.3.1 氨基酸组成 3
1.3.2 残基偶联模型 3
1.4特征的筛选 3
1.4.1 基于最大相关最小冗余(mRMR)方法选择特征 3
1.4.2 基于主成分分析(PCA)方法选择特征 4
1.5分类模型的构建 4
1.5.1 支持向量机方法建模 4
2 结果与分析 6
2.1 mRMR方法建立支持向量机分类模型 6
2.2 基于氨基酸组成和残基偶联特征建立支持向量机模型 6
2.3 主成分分析法优选特征后建立支持向量机模型 7
2.4 以蛋白之间的相互作用为特征建立支持向量机模型 7
2.5 结果评估 8
2.5.1 磷酸化预测性能的评估 8
2.5.2 功能特征评估 9
2.5.3 总结 10
3 讨论 10
致谢 11
参考文献:  *景先生毕设|www.jxszl.com +Q: *351916072
11
基于mRMR原则和优化SVM的拟南芥磷酸化网络的链路预测
国家生命科学与技术人才培养基地学生 万升
引言
蛋白质磷酸化是细胞信号转导中重要的调节方式之一,探究蛋白质磷酸化的机理及其对蛋白质活力与功能的影响,是生物学研究中值得探索的一个方向。目前有许多方法可以对蛋白质的磷酸化进行预测,如贝叶斯决策理论、随机森林法等。随着生物科学的不断进步,我们可以方便地获得大量生物数据[8],如何处理这些数据便成为了一个重要的课题,由此,生物信息学应运而生[9][10]。生物信息学是以计算机为主要工具,对生物学信息进行存储、检索和分析的科学。随着基因组计划和其他计划的实施导致大量生物信息数据产生,知识发现和数据挖掘技术将会在生物数据分析方面发挥越来越重要的作用,将会有更多的数据挖掘方法应用到生物信息学中[1]。
磷酸化在蛋白质组学中占有很重要的地位,有大量的数据等待我们挖掘和分析。蛋白质磷酸化指的是蛋白质激酶催化的ATP或者GTPy位的磷酸基转移到氨基酸残基上的过程,同时也是生物体内一个可逆的翻译后修饰作用,这对许多的生命活动都起着非常重要的作用。
本实验借助SVM的方法,能够对拟南芥蛋白质潜在的磷酸化位点进行阴阳性判断,对于蛋白质磷酸化相关实验的进一步研究有着指导意义,同时实验得到的磷酸化数据对于提升SVM分类器的分类能力也有着促进作用。在结果评价方面,本文使用了ROC曲线和AUC值衡量分类器的优劣,对几种不同的方法进行了比较。最终实验结果测试发现,使用氨基酸组成加上残基偶联的特征分类准确率最高,准确率可以达到73.65%,在上述特征基础上再使用PCA处理后,分类的准确率为73.1%,而基于氨基酸组成的特征准确率为67.85%。
1 材料与方法
1.1 实验数据和相关工具
1.1.1 实验数据
拟南芥蛋白质序列;拟南芥蛋白质阳性数据集(数据来自http://www.arabidopsis.org/)。
1.1.2 实验工具
Matlab;Python;libsvm软件包;mRMR软件包
1.2 数据预处理
本实验经搜集了拟南芥通过生物实验测序得到的蛋白质序列信息(部分数据如图1),并从相关数据库获得了高置信度的拟南芥蛋白质磷酸化位点信息(部分数据如图2),借助这些有限的数据,从拟南芥蛋白全质序列信息中找到磷酸化的具体位点。而磷酸化的位点一般为丝氨酸(S)、苏氨酸(T)和酪氨酸(Y)三种,在采集阳性和阴性数据集时,本文选择以上述三种氨基酸残基为中心,向两边分别开一个窗口[2],得到特定长度的子序列。如果窗口长度为len,那么子序列的长度为(2*len+1),本实验取len为12,子序列长度相应地为25。以下实验都以一条子序列作为一个样本,每条子序列所含氨基酸都用大写字母代表,分别为20种:{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}。
若使用人工方法查找序列信息,需要巨量的时间,为了提高效率,本实验借助matlab软件编写程序来进行数据的提取,并转换成数字的形式。具体步骤为:以图2中AT1G01010.1为例,在蛋白质序列信息中先检索基因名称,找到后再将SGKWKLTGESVEV作为选择的依据,以磷酸化位点为中心,向两边扩展25个氨基酸,形成50个氨基酸残基组成的序列。

图1. 拟南芥蛋白质序列信息
Figure 1. Sequence information of Arabidopsis protein

图2. 拟南芥蛋白质磷酸化位点信息
Figure 2. Phosphorylation site information of Arabidopsis protein
1.3 蛋白质序列特征提取
1.3.1 氨基酸组成
基于氨基酸组成的特征提取方法[3][23],能够表示20种氨基酸在子序列中存在的概率,因此,每个样本(子序列)都可以表示成20维欧式空间的一个点,每一维都是样本的一种特征,也就是一种氨基酸存在的概率,用向量表示为:
Vcom=(v1,v2,v3v20)T (1.1)
其中,vi=ni/len,ni为第i(1≤i≤20)种氨基酸在蛋白质序列中出现的次数,len为蛋白质序列的长度,本文中len为25。
本实验采用上述特征提取的方法,获得了20维特征,分别代表20种氨基酸残基在序列中出现的频率。
1.3.2 残基偶联模型
在一条蛋白质子序列中,k(k Xi,jk= (1.2)
其中,i和j用来表示20种氨基酸;如果序列的位置n上是氨基酸i,同时位置n+k上是氨基酸j,那么Hi,j(n,n+k)=1;否则为0。残基偶联模型表示的是相隔一定距离的氨基酸对之间的作用,每一个k值对应400维的特征。

原文链接:http://www.jxszl.com/swgc/smkx/55539.html