您的当前位置:首页正文

基于NMF技术探寻早期AD基因表达调控网络

2020-02-21 来源:好走旅游网
2012年1月 安徽大学学报(自然科学版) January 2012 第36卷第1期 Journal of Anhui University(Natural Science Edition) Vo1.36 No.1 基于NMF技术探寻早期AD基因表达调控网络 陶伟杰,孔薇 (上海海事大学信息工程学院,上海200135) 摘要:利用非负矩阵分解(NMF)技术,依据加强算法的稀疏性对患早期阿尔茨海默症(AD)样本 的基因表达数据进行分析,提取对疾病早期诊断具有重要意义的显著基因,样本分类实验结果证明了算 法的有效性.在此基础上,结合与炎症反应有重要关系的NF—KB等基因初步建立了与早期AD密切相 关的基因表达调控网络结构图,为AD致病机理的探询、早期诊断与治疗等提供了有益的途径和方法. 关键词:非负矩阵分解;阿尔茨海默症;基因信号传导通路 中图分类号:TP301 文献标志码:A 文章编号:1000—2162(2012)O1—0069—07 Discovering gene expression regulatory networks of incipient AD based on NMF TAO Wei—jie,KONG Wei (School of Information Engineering,Shanghai Maritime University,Shanghai 200135,China) Abstract:In this paper,Non-negative matirx factorization(NMF)technique was used which was stren ̄hened with the sparsity to analyze the incipient Alzheimer’S disease(AD)samples and extracted the significant genes which were important to the early diagnosis of the disease.The sample classification experiment results showed the effectiveness of this algorithm.On this basis,combined with NF—KB and other genes which have an important relationship of the inflammatory response gene regulatory network structure which is tightly related with incipient AD.This figure provided useful means and methods for probing AD pathogenesis,early diagnosis and treatment was established. Key words:non-negative matrix factorization;Alzheimer’S disease;gene signaling pathway 阿尔茨海默症(Alzheimer’S disease,简称AD) 是以进行性认知障碍和记忆力损害为主的中枢神 经系统退行性病变,全世界范围内已有三千多万患者,该病约占全部痴呆病人的55%,且其患病率随年 龄增长而增高.临床表现为认知和记忆功能不断恶化,日常生活能力进行性减退,并有各种神经精神症 状和行为障碍.至今AD的病理过程并不清楚,也无治疗此类疾病的理想方法,给患者及其家庭带来了 巨大的痛苦.随着我国逐渐进入老龄化社会,研究AD的致病机理进行AD的早期诊断已成为当务之 急,探询AD相关的致病基因传导通路也是研究AD的重要任务之一. 随着DNA微阵列芯片技术在生物医药领域的广泛使用,如何从数以万计的高维数据中有效提取其 收稿日期:2011—04—11 基金项目:国家自然科学基金资助项目(60801060);上海海事大学校基金资助项目(20090125) 作者简介:陶伟杰(1987一),男,安徽阜阳人,上海海事大学硕士研究生; 孔薇(通讯作者),上海海事大学副教 授,硕士生导师,E—mail:weikong@shmtu.edu.cn. 引文格式:陶伟杰,孔薇.基于NMF技术探寻早期AD基因表达调控网络[J].安徽大学学报:自然科学版,2012,36 (1):69—75. 70 安徽大学学报(自然科学版) 第36卷 生物信息成为人类进行疾病病理分析、诊断、早期治疗和新药物研发亟待解决的问题之一.近年来,现代 信号处理和机器学习技术已经有效地应用到了基因表达数据的分析中,如:k一均值 J、自组织影射 (self-organizing maps,简称SOM) -4]、分层决策树 J、主成分分析 J、独立成分分析 方法等.但是它 们的缺点在于对数聚集通常是进行全局聚类,且只能将某个基因分类到某一组中,这与一个基因往往同 时在多个信号传导通路的实际情况不相符. 在不同条件下基因按照某种功能被陆续激活具有一定连续性和相似性,另外同一个基因又可能同 时参与不同的转录及调控通路,研究表明,双向聚类方法 可以同时对基因及样本同时聚类,能够提取 某一功能下具有相似表达的基因组,同时能够将同一个基因聚到不同的类中,这和一个基因往往同时在 多个信号传导通路的实际情况相符.非负矩阵分解方法正是一种能够提取数据局部特性的双向聚类方 法.1999年,Lee和Seungl9 在Nature上提出了非负矩阵分解(non.negative matirx factorization,简称 NMF)方法,以其非负性的特点,迅速地被应用于各种领域,同时也很快被生物医学采用. 针对NMF方法分解结果不唯一的不足,许多学者利用增强分解矩阵的稀疏性改进了此方法.该文 选用非平滑非负矩阵分解(non.smooth non.negative matirx factorization,简称nsNMF)¨。。方法,在迭代过 程中通过一个非平滑变量分别使分解后的基向量矩阵及系数矩阵稀疏性增强.实验表明在无监督的情 况下该算法能更好地捕获AD微阵列表达数据的局部特性,从这些局部特性中提取的显著基因与AD 产生较强的生物学关系. 大量研究结果表明,AD等神经退化性疾病中线粒体反应和氧化应激反应多数是炎症反应的表现, 自吞噬也属于炎症反应后的过度免疫反应,胰岛素/IGF信号传导通路以及热量限制均与炎症反应或其 信号传导通路中的某些基因有密切关系.因此该文以炎症反应为主线,基于核转录因子NF—KB等与炎 症反应密切相关的基因,结合nsNMF方法所提取的显著基因建立初步的早期AD基因表达信号调控网 络,分析和提炼出NMF聚类结果中可能引发AD的基因信号传导通路,此研究对AD致病机理的研究及 生物学试验均具有借鉴意义. 1 方法 1.1数据预处理 由于DNA微阵列技术产生的海量数据具有大规模、高噪声、高维度的特点,因此该文将采用基于小 波变换一SAM(signiifcance analysis of microarrays,简称SAM) 方法,通过调节△(样本统计量与期望统 计量的差值,其大小反映了基因表达强度的能力大小)值,计算其对应的假阳性率(FPR),对AD微阵列 数据进行预处理. 该次实验中,使用由Blalock等人上传到GEO数据库中的数据,其中包含有关海马基因表达的无病 和有病的AD样本 ,这些海马标本已获得进入肯塔基大学阿尔茨海默氏症疾病研究中心脑银行的资 格.在微阵列数据集中使用Mfymetrix公司的人类基因组芯片(HG—U133A)和微阵列套件5,所有RNA 的分离、标记过程及微阵列在文献[12]和[13]中都进行了描述. SAM的基本原理及算法可参考文献 ,校正参数的估计采用使下面统计量的变异系数最小化 方法得到 等, (1) 其中:d 为差异表达基因的统计量值; 和 为试验组和对照组第i个基因表达值的样本均数;s为样 本残差标准误;s。为样本残差标准误的校正值,主要与s的分布相关,其数值大小可由使用者确定,也可 以利用SAM软件自动估计.在基因特异性t检验的分母中加入一个较小的正值,使差异表达具有较小变 化的基因不会因为具有很小的标准误而被误判为差异表达基因,减小了基因特异性t检验的不稳定性, 有效降低了假阳性率,从而有效地达到筛选目的.然后对数据进行Ⅳ次无替换的重抽样,记第k次重抽 ——1 N —— 样时的d 为d k=1,2,…,Ⅳ.计算d 的期望值d = 1∑ 通过调节△值可以控制FPR的大小,从 第1期 陶伟杰,等:基于NMF技术探寻早期AD基因表达调控网络 71 而确定筛选出的表达基因数目. 1.2非平滑非负矩阵分解(nsNMF)算法 原始NMF算法可以描述为:已知一个n X rrt非负矩阵',,要找出非负的It×r矩阵w和非负的r x m 矩阵日,使得V=WH,对给定的n维数据向量集合 ,其中m为集合中数据样本的个数,这个矩阵可 近似地分解为矩阵 ,和矩阵日…的乘积.r为分类数,r的选择应满足(rt+m)r<nm,从而w和日 将会小于原始矩阵 基因表达的原始数据就是一个大型非负矩阵.它的行代表基因,列代表样本,每一项就是对应基因 在对应样本的表达水平.从生物意义上看,经过非负分解所得w的每一列可以认为对应着某一生物过 程,矩阵 的每一项可以看成对应的基因在各个生物过程中表达模式的加权和,而因子矩阵H的每一 行则表征原非负矩阵 相应列的权重. nsNMF¨ 是原始NMF的一种改进,其目的是为了得到全局的稀疏性以能够更好地解释数据.由于 NMF模型的乘法本质,为了使数据具有一定的稀疏度,通过下式将一个“平滑”矩阵引入 V一 日, (2) 其中:S∈R 是一个正平滑矩阵,定义为 :(1一 )J+旦 , (3) g 其中:J是单位矩阵;f∈Rh 是列向量;参数0满足0≤ ≤1,控制着模型的稀疏度.nsNMF模型的目 标函数最终可描述为 m 1, D( ,WH) ( ln 一Vii+(WSH)i ̄)・ (4) 对于平滑矩阵S的解释如下:设 为一个正向量,考虑变换的向量Y=SX,如果0=0,则Y=X, 向量 的平滑性并没有传递到y中;而随着 一1,Y趋向于常数向量,其中的每一个元素趋近于向量 的平均值,这是“非稀疏”意义下最平滑的向量,原因是向量y中的每一个值都等于一个非零值,而不是 一些值接近于0,另一些值明显大于0.因此参数 显示控制平滑矩阵 的平滑程度.进一步观察nsNMF 模型,公式(2)可以有双重诠释,它也可以表达为 V=(WS)H=W(SH). (5) 当迭代过程中因子矩阵元素出现零值时,若其他因子对应元素不全为零,则由于矩阵 与因子矩阵 相乘,使得附近的元素加和到此元素上从而使得元素变为非零,这就解决了原始NMF的零值缺陷问题, 避免陷入局部最优,而使得算法更易得到唯一解.同时,矩阵 的加入促使了算法收敛速度的加快.在 该文中,经过许多实验测试发现,当 =0.5时得到的效果最好. 2实验结果 文中所要处理的AD微阵列基因表达数据共16个样本22 283个基因,包含9个无病(contro1)样本 和7个轻度(incipient)患病样本,经过降维、去噪、分类聚类,最后利用相关软件与数据库,探寻出与AD 相关的早期致病基因表达调控网络. 在利用nsNMF对数据进行分析之前,为了有效证明nsNMF算法的优越性,在同一条件下,对进行 预处理后的数据,在原始NMF和nsNMF算法下进行聚类分析比较. 图1为原始NMF与nsNMF聚类分析比较,其中图1a为原始NMF共表型相关性系数曲线,图1b为 nsNMF共表型相关性系数曲线,图1C为k=2时原始NMF的聚类效果图,图1d为k=2时nsNMF的聚 类效果图. 第1期 陶伟杰,等:基于NMF技术探寻早期AD基因表达调控网络 75 3结束语 作者采用wT—SAM与nsNMF相结合的方法对AD微阵列样本数据进行处理,实验结果表明该方 法是一种现实可行的分析方法.通过基因表达调控网络的构建,加深了对AD致病机理的理解,也为应 用智能计算结合信息学方法探讨AD早期致病基因表达调控网络做了有益的探索. 参考文献: [1]Ferri C P,Prince M,Brayne C,et a1.Global prevalence of dementia:a Delphi consensus study[J].The Lancet,2005, 366(9503):2112—2117. [2] Tavazoie s,Hughes J D,Campbell M J,et a1.Systematic determination of genetic network architecture[J].Nat Genet, 1999,22:281—285. [3] Tamayo P,S]onim D,Mesirov J,et a1.Interpreting patterns of gene expression with self-organizing maps:methods and application to hematopoietic diferentiation[J].Proc Natl Acad Sci USA,1999,96:2907—2912. [4] Toronen P,Kolehmainen M,Wong G,et a1.Analysis of gene expression data using self-organizing maps[J].FEBS Lett,1999,451:142—146. [5] Eisen M B,Spellman P T,Brown P O,et a1.Cluster analysis and display of genome—wide expression patterns[J]. Proc Natl Acad Sci USA,1998,95:14863—14868. [6] Erkki O.The nonlinear PCA leaming rule in independent component naalysis[J].Neurocomputing,1997,17(1):25-45. [7] Wei K,Charles R V,Hiromi G,et a1.A review of independent component analysis application to microarray gene expression data[J].Bio Techniques,2008,45:501—520. [8] 曹胜玉,刘来福.非负矩阵分解及其在基因表达数据分析中的应用[J].北京师范大学学报:自然科学版, 2007,43(1):30—33. [9] Lee D,Seung H S.Learning the parts of objects by non—negative matirx factorization[J].Nature,1999,401:788-791. [10] Pascual M A,Carazo J M,Kochi K,et a1.Non—smooth Non—Negative Matirx Factorization(nsNMF)[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28:403—415. 伍亚舟,张玲,易东等.基于小波变换一SAM方法的差异表达基因筛选研究[J].北京生物医学工程,2008,27 (5):454--457. [12] Blalock E M,Geddes J W,Chen K C,et a1.Land field PW:Incipient Alzheimer's disease:microarray eorrelationc analyses revela major transcirptional and tumor suppressor responses[J].PNAS,2004,101(7):2173—2178. [13] Blalock E M,Chen K C,Sharrow K,et a1.Land field PW:Gene microarrays in hippocampal aging:statistical profiling identiifes novel processes correlated with cognitive impaimrent[J].J Neurosci,2003,23(9):3807—3819. [14] Tusher V G,Tibshirani R,Chu G.Signiifcance analysis of microarrays applied to the ionizing radiation response[J]. PNAS,2001,98(9):5116—5121. [15] 张彦琦,袁源,赵增炜,等.基于微阵列表达数据的可调FPR差异表达基因筛选[J].重庆医学,2007,36(4): 330—332. [16] Meji6一Roa E,Carmona-Saez P,Noglaes R,et a1.BioNMF:a web—based tool for nonnegative matirx factorization in biology[J].Nucleic Acids Research,2008,36(suppl 2):W523一W528. [17] Tao W J.BioNMF:a web—based tool for nonnegative matirx factorization in biology[J].[2011一O3—11].http:// www.alzgene.org/TopResults.asp. [18] Gao J,Alex S A,Tarcea V G,et a1.Integrating and annotating the interactome using the MiMI plugin for eytoscape [J].Bioinformatics,2009,25(1):137—138. [19] Lin C Y,Chin C H,Wu H H,et a1.Hubba:hub objects analyzer--a ̄amework of interactome hubs identiifcation for network bioloyg[J].Nucleic Acids Research,2008,36:438—443. (责任编辑郑小虎) 

因篇幅问题不能全部显示,请点此查看更多更全内容