基于关联规则映射的生物信息网络多维数据挖掘算法
2020-10-04
来源:好走旅游网
第32卷第6期 2015年6月 计算机应用研究 Application Research of Computers Vo1.32 No.6 Jun.2015 基于关联规则映射的生物信息网络 多维数据挖掘算法米 唐晓东 (华南师范大学经济与管理学院,广州510630) 摘要l_针对在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、 内存占用大等问题,提出一种基于关联规则映射的生物信息网络多维数据挖掘算法。该算法结合网络数据集之 间的关联映射关系,从而确定网络数据集的关联规则,并引入挖掘因子和相对误差来提高算法的挖掘精度;根据 多维子空间中数据集之间的关联程度进行子空间区分以及子空间内数据集区分,从而实现对不同数据集的有效 挖掘。在实验中,对不同数据集数量下的算法内存占用情况、算法挖掘精度、算法运行时间进行仿真,从实验结 果可以看出基于关联规则映射的挖掘算法可以有效地提高挖掘精度,在减少内存占用和提升计算速度上也具有 一定的优势。 关键词:数据挖掘;关联规则映射;生物信息网络;多维数据挖掘 中图分类号:TP391 文献标志码:A 文章编号:1001—3695(2015)06—1614—03 doi:10.3969/j.issn.1001-3695.2015.06.003 Biological information network multidimensional data mining algorithm based on association rules mapping Tang Xiaodong (Dept.ofEcommerce sD ^China Normal University,Guangzhou 510630,China) Abstract:For the problems such as mining low accuracy of algorithm,low speed and large memo ̄footprint when digging the complex and large-scale data sets in the biological information network,this paper proposed a biological information network multi-dimensional data mining algorithm that based on association rules mapping.The algorithm combined association mapping relationship between the network dataset to determine the association rules of network dataset,and introduced the mining factor and relative error to improve mining accuracy of the algorithm.According to the multi—dimensional subspace degree of associa— tion between the data sets to distinguish the subspace and subspace datasets in order to achieve effective excavation of different data sets.The experiment al resuhs on the memo ̄usage of the algorithm on the number of different sets of data,the accuracy of mining algorithm,the simulation of algorithm running time,show the association rule mining algorithm can effectively improve the mining map accuracy,reduce the memo ̄footprint and enhance the computing speed. Key words:data mining;association rule mapping;biological information network;muhidimensional data mining 刘殷雷等人 提出一种不确定性数据流上频繁项集挖掘 0 引言 数据挖掘是指在大量的数据当中通过搜索算法来寻找隐 藏的数据信息,它是基于机器学习、人工智能、模式识别等技 术,数据挖掘能在大量数据中寻找规律,寻找出数据集所含规 的有效算法,该算法通过一个有效的数据结构来对不确定性数 据事务流的项集进行存储,并且在数据结构的基础上设计了一 种挖掘算法SRUF—mine,通过深度遍历全局树来挖掘数据流。 王伟平等人 提出一种有效的挖掘数据流近似频繁项算法, 该算法通过一种确定的s一近似方法来准确挖掘数据流中的频 律,并通过可视化形式表现出来 0 。随着多媒体以及网络技 术的不断发展,图像、音频、视频等多媒体数据在不断增多,要 繁项,并利用概要数据来满足用户的查询,并且有效地减少算 法的空间复杂性和平均处理时间,得到较小的频率误差。刘大 对这些数据进行有效管理和查询非常困难,而采用具有学习能 力的数据挖掘技术,可以通过发掘大量数据信息所具有的潜在 内容特征而进行多媒体数据的有效聚类,能够更好地对大量数 据进行管理,方便对数据实行统计查询 。生物信息网络是 指运用数学方法和图论、网络拓扑学等方法来研究生物信息系 有等人 提出一种基于环路紧密度的复杂网络社区挖掘算 法,该算法通过环路紧密值来实现网络社区的有效聚类,使用 广度优先遍历算法遍历全图,并取与各个核中最为紧密的核作 为归属,在实验中通过真实网络数据集来对挖掘算法的有效性 进行了验证。张鸿等人 提出一种基于关系矩阵融合的多媒 体数据聚类方法,该方法通过对图像以及音/视频数据进行特 性矩阵的相关性统计分析,并进行相关性融合来挖掘数据集的 统的网络,它包括生物科学、数学模型、计算机科学等技术,以 网络的思维来研究生物系统各个组成部分的联系以及组织结 构等 , 。 收稿日期:2014—04—15;修回13期:2014-06—04 基金项目:广东省“产学研”资助项目(2012B091100043) 作者简介:唐晓东(1968.),男,湖南衡阳人,副教授,硕士,主要研究方向为电子商务、数据挖掘(elliptic@163.com) 第6期 唐晓东:基于关联规则映射的生物信息网络多维数据挖掘算法 据集 和 。 ・1615・ 相似语义,最后采用基于相似度的循环迭代方法来实现数据聚 类。Peng等人-】。。提出一种基于数据集成、数据挖掘和多准则 1 决策的事故信息管理框架,它可以支持异构的分布式事件数 据,让决策者(DMS)决定检测异常并提取有用的知识,能够协 f 一 助DMS评估风险,并在事件中选择一个合适的替代方案,提供 差异化服务,以满足不同事件管理阶段的要求。 ,(Vi, ):l; 【 一 1 卢 l 0 (4) 从大多数数据集中区别出数据集 和数据集 后,再通 1 数据集关联规则映射 在一个生物信息网络中,为了能对网络所构建的拓扑结构 过这两个数据集之间的关联映射就可以把它们分别区分出来。 接着本文通过概率估计的方法来得到数据挖掘频率,采用 的概率估计公式为 m ,图进行挖掘,并减少在搜索生物信息网络的特征数据时所带来 的复杂度,本文结合网络数据的关联映射关系确定网络数据集 2 的关联规则,提高数据挖掘效率,并且通过概率估计的方法得 到数据挖掘频率,并引入挖掘因子和相对误差来提高挖掘精 度 I, ]。图1为采用关联规则映射方法的数据挖掘结构图。 图1数据挖掘结构图 对于生物信息网络的结构拓扑图,本文定义一个G=( , E)来表示拓扑图。其中:; V表示组成该网络的各个组织结构, 、 ●●●●●●●●J ,,..........., . .,E表示联系各个组织结构的边。在V=(l , ,… )中, (0≤i≤n)表示数据集,、●●●●●●●●●●J =( 2 一, ), (0≤ ≤m)表 ......+ ....... , 示该数据集的一个有效数据。假设数据集 ; 与数据集 之 间的关联程度可以用关联属性组( ,卢 0 )来表示, 表示 数据集之间的大小关联, 表示数据集之间的语义关联,0 表 示数据集之间的类型关联。 对于数据集之间的关联映射关系,本文进行如下定义: 定义1 对于数据集 与数据集 之间的关联属性组 ( ,卢 0 ),都可以表示为这两个数据集中的任意数据之间 的关联程度。 定义2 可以采用关联系数矩阵的形式来表示关联属性 组。关联系数矩阵是这两个数据集中的所有数据之间关联程 度的平均值。 Kl lf 1O3l I=l;ik]f Oli l… i l] l…卢ll; ]lfl; 0i l…Oil Jk] (1) 【0 J l …n 1八卢1^…卢 1八口1 …pd J 定义3数据集之间除了具有关联性外,也具有差异性。 差异性系数矩阵用关联属性矩阵的倒数形式表示。 1 l 1 1 1 Olik l 卢fl 卢I 0;l 01 卢 (2) 1 1 1 1 1 Oik 1^ 口n 0l 0 1 根据关联系数矩阵和差异性系数矩阵,对于数据集 和 数据集 之间的关联映射为 k1 k1 l一百 ’… m— 得到数据集 和数据集 之间的关联映射后,采用互相 关系矩阵得到数据集的关联规则,来从大多数数据集中区别数 ㈥ 为了提高数据挖掘精度,本文引入了挖掘因子和相对 误差。 篓 . 2 ㈤ 其中:A表示挖掘因子,取值为(0,1), 表示预期挖掘概率与 实际挖掘情况之间的相对误差。为了取得合适的A值,使得 挖掘频率达到最大,本文在(0,1)使A取不同的值,得到了图2 所示的挖掘频率变化情况。从图2中可以看出,当取值为A= 0.7时,挖掘频率最大。 2 多维数据的数据集特性挖掘 本文假设数据样本是分布于多维子空间,当在同一子空间 内两个数据样本的关联程度越大,则具有强相关性,关联程度 越小,则具有弱相关性。对同一子空间的数据样本进行区分 时,则需要根据数据样本的关联程度来制定挖掘规则。当数据 集是位于不同的子空间,则只需要根据子空间的关联性质来区 分出子空间即可 。 假设子空间的维度为d,先挖掘处于不同子空间的不同数 据集,其中子空间用矩阵M表示,定义为 Mfl ] JI = d≤n (7) 假设两个数据集 和 分别位于两个不同的子空间 M (i≤d)和 (k≤d),其中这两个子空间的欧几里德距离为 D(i,k),两个数据集的欧几里德距离为d(i,k)。则对于不同 子空间的两个数据集的挖掘公式为 W(M ,M )=.等_ lf J ] ( )P( )×l0 JD(一 , ) +d一 ( , ) (8) 其中: 表示子空间挖掘因子,P( )、P( )分别表示数据集 和数据集 的挖掘频率。 对于同一子空间的不同数据集的挖掘,通过不同数据集之 间的关联程度进行区分。先通过式(1)和(2)求得 和 ,然 后求得在同一空间下数据集 和 的关联因子: … ] (9) 得到数据集 和 的关联因子g(i,k)之后,可以得到相 同子空间下这两个数据集的挖掘公式为 ・1616・ 计算机应用研究 第32卷 ( ,伊)=(P( )一P( ))g( ,k)d( ,k)× eg(‘, ) 78.1%,Bal的算法为80.2%,而且从数据集数量不断增加时 (10) fl; Xl k‘一 m!I 1 f 1f… m;I‘1 l m … 1 Jl mI…Xli J 挖掘精度的变化情况来看,本文算法的挖掘精度所受到的影响 较小。 ,, .....。.。........ 图5为在不同数据集数量下的算法运行时间,算法运行时 假设在同一空间 ‘下数据集之间关联程度限定阈值 ( ),当数据集之间的关联因子g(i,k)大于 ( )时,则这两 个数据集具有强相关性,则两个数据集的区分公式写成 f … 、 间都是随着所采用的数据集的数量的增多而增大,在数据集数 量为1 000时本文算法的运行时间为16.7 S,Sun算法的运行 时间为l9.7 s,Bal的算法的运行时间为21.3 S,所用运行时间 越短,更能反映算法在计算能力上的优势,也更加适用于对实 …I【 lJ , ( V声、一 ( ( ~ ) 际的大规模数据集进行挖掘。r … 、 I【 … , J “(√ V … ~耋( )_尸( )( 1 ) 当数据集之间的关联因子g(i,k)小于 ( )时,则这两个 数据集具有弱相关性,则两个数据集的区分公式写成 f l … 1 I; ;1 ( , ) + l3) ・ j ;l ( ,Vk) ・ J (Vk)= ('ITe 一1) +÷ (P( )一P( ))(14) 3实验分析 为了验证本文提出的基于关联规则映射的生物信息网络 多维数据挖掘算法,所采用的实验仿真硬件平台为IBM的PC 机,主频为2.3 GHz CPU,操作系统为Windows XP,内存为 4 GB。软件仿真平台为MATLAB 7.0,在实验中准备了随机真 实的数据集,包括赛车数据集、天气预报数据集、金融走势数据 集等1 000个数据集。在实验中作为对比的算法有两组,一组 为Sun等人 提出的一种异构信息网数据挖掘的分析方法, 另一组是Bal_l 提出的一种基于粗糙集理论的数据挖掘方法。 实验分为三个部分,包括在不同数据集数量下内存占用情况、 在不同数据集数量下的算法挖掘精度以及在不同数据集数量 下的算法运行时间。 图3为在不同数据集数量下内存占用情况,内存占用越 少,说明该数据挖掘算法的性能情况越好,越适合于对实际真 实的大型数据集进行挖掘。从图中的情况来看,基于关联规则 映射的挖掘算法所占用的内存容量较少,而基于粗糙集理论和 异构信息网的数据挖掘算法所占用的内存容量较多,因此在对 数据集进行挖掘的性能上本文提出算法具有更大的优势。 料 瞩 图2挖掘频率随A 图3不同数据集数量下 取不同值时的变化情况 内存占用情况 图4为在不同数据集数量下的算法挖掘精度情况,数据集 数量越大的情况下能保持较好的挖掘精度,则说明该挖掘算法 在实际应用上的有效性。从图4中的情况可以看出,在挖掘精 度上本文算法占据领先优势,在数据集数量为1 000的情况 下,挖掘精度达到了86.7%,而Sun算法的挖掘精度仅为 厘 曹 200 400 600 800 1ooO 数据集数量 数据集数量 图4在不同数据集数量下的 图5在不同数据集数量下的 算法挖掘精度 算法运行时间 4结束语 本文提出了一种基于关联规则映射的生物信息网络多维 数据挖掘算法,该算法针对生物信息网络中复杂的大规模数据 信息进行挖掘,所采用的方法为数据集关联规则映射和多维数 据的数据集特性挖掘方法,前者主要是通过得到数据集之间的 关联映射关系来提高数据挖掘频率和数据挖掘精度,后者则是 通过对相同子空间和不同子空间的数据集特性集进行区分,从 而达到有效的数据挖掘效果。实验中通过对挖掘算法进行了 三组评估实验来分析算法在挖掘精度、内存占用以及运行时间 上的独特优势。 参考文献: [1]Low Y,Bickson D,Gonzalez J,et a1.Distributed GraphLab:a frame- work for machine learning and data mining in the cloud[J].Proceed- ings of the VLDB Endowment,2012,5(8):716 ̄27. [2]Alcalti—Fdez J,Fernandez A,Luengo J,et a1.KEEL data—mining soft- ware tool:data set repository,integration of algorithms and experimen- tla analysis framework[J].Journal of Multiple—Valued Logic&Soft Computing,2011,12(17):204—209. [3]赵川源,何东健,乔永亮.基于多光谱图像和数据挖掘的多特征杂 草识别方法[J].农业工程学报,2013,29(2):192—198. [4]宋淑彩,祁爱华,王剑雄.面向Web的数据挖掘技术在网站优化 中的个性化推荐方法的研究与应用[J].科技通报,2012,28(2): 117.119. [5]Garcia S,Fermindez A,Luengo J,et a1.Advanced nonparametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining:experimental analysis of power[J]. 1nformation Sciences,2010,180(1O):2044—2064. [6]刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算 法[J].计算机研究与发展,2011,48(3):1-7. [7]王伟平,张冬冬.一种有效的挖掘数据流近似频繁项算法[J].软 件学报,2007,18(4):884・892. [8]刘大有,杨建宁,杨博,等.基于环路紧密度的复杂网络社区挖掘 方法[J].吉林大学学报:工学版,2013,3(1):98—105. [9]张鸿,吴飞,张晓龙.基于关系矩阵融合的多媒体数据聚类[J]. 计算机学报,2011,34(9):1705—1711. (下转第1620页) ・1620・ 计算机应用研究 第32卷 方向由SVM来确定,这样便提高了准确率。此外,后者的性能 2D09,43(2):105-121. 更为稳定,不会因为训练数据的改变而导致测试性能发生波 [2]周强,孙茂松,黄昌宁,等.汉语最长名词短语的自动识别[J].软 动。但是由图5可以看出,随着训练集比重的提高,算法的准 件学报,2000,11(2):195—201. 确率并没有随之提高,原因在于数据量的庞大,20%的数据特 [3]Goldberg Y,Elhadad M.An efifcient algorithm for easy—first non-direc- 征已经能很好地训练算法。根据短语本身的特点分析,最能够 tional dependency parsing[C]//Proc of Annual Conference on Hu 影响算法性能的特征主要在于词性特征以及节点的位置、长度 man Language Technologies and the North American Chapter of the Association for Computational Linguistics.2010:742-750. 等特征,词本身特征对算法的影响更小一些。 本文还将结合SVM的简单边优先算法与基于最大生成树 [4]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004: 62l一622. 算法的ctbparser的性能进行了比较,实验结果如表2所示。 [5]李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J]. Ctbparser基于宾州中文树库标准,能很好地应用于完整句子的 计算机应用研究,2003,20(12):l5一l7. 依存分析。然而由表2可以看出对于复杂名词短语进行依存 [6]Xue Nianwen,Xia Fei.The bracketing guidelines ofr the penn Chinese 分析时,算法的边和根还有整个短语的准确率都高于ctbparser treebank(3.0),IRCS-00-08[R].Philadelphia:University of Penn— 的结果,甚至算法的最坏值也均优于ctbparser。这也很好地说 sylvania,2010. 明了复杂名词短语的依存分析对句子依存分析的重要性,将复 [7]Zhang Yue,Clark S.Transition—based parsing of the Chinese treebank 杂名词短语成分和句子的其他成分分别分析,并将得到的子树 using a global discriminative model[C]//Proc ofthe llth Internation- 相结合得到句子依存分析的完整结果,能够有效地提高分析的 al Conference on Parsing Technologies.2009:162-171. 效果。 [8]McDonald R,Pereira F.Non—pmjective dependency parsing using 表2结合SVM简单边优先算法与ctbparser性能比较 spanning tree algorithms[C]//Proc of Conference on Human Lan— guage Technology and Empiircal Methods in Naturla Language Pro— cessing.2005:523-530. [9]McDonald R,Crammer K,Pereira F.Online large—margin training of dependency parsers[C]//Proc of the 43rd Annual Meeting of the As- 4.4算法的不足 sociation for Computational Linguistics.2005:91-98. 在分析算法的分析结果时,笔者发现当短语长度比较长或 [10]Zhang Yue,Clrak S.A tale of two parsers:investigating nad combi- 者短语中有依存关系的两个词之间的距离较长而其中之一和 ning graph・・based and transition-based dependency parsing using 邻近的词也可以构成依存关系时,往往会优先将邻近的两个节 beam-serach[C]//Proc of Conference on Empiricla Methods in Natu— ral Language Processing.2008:562・571. 点连接而导致错误。这相比基于图的算法是一个最大的不足, [11]周惠巍,黄德根,高洁,等.最大生成树算法和决策式算法相结合 这也是笔者以后需要解决的问题。 的中文依存关系解析[J].中文信息学报,2012,26(3):16-21. 5结束语 [12]辛霄,范士喜,王轩,等.基于最大熵的依存句法分析[J].中文信 息学报,2009,23(2):18 22. 本文提出了对简单边优先的依存句法分析算法,并用其对 [13]刘挺,马金山,李生.基于词汇支配度的汉语依存分析模型[J]. 复杂名词短语进行依存分析,算法应用的对象是包含至少三个 软件学报,2006,17(9):1876—1883. 词语的复杂名词短语。本文对算法进行了改进,但算法性能仍 [14]郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J]. 有不足。下一步的工作主要包括两个方向:a)进一步解决长 计算机应用研究,2008,25(11):2356-2358. [15]Collins M.Discriminative training methods for hidden Markov models: 距离依存关系的识别;b)对复杂名词短语内部依存关系类型 theory and experiments with perceptron algorithms[c]//Proc of 的确定。 Conference on Empiircal Methods in Naturla Language Processing. 参考文献: 2007:l一8. [1]Girju R,Nakov P,Nastase V,et a1.Classiifcation of semantic relations [16]闰友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研 between nominals[J].Language Resources and Evaluation, 究,2004,21(7):4-13. (上接第1616页) York:ACM Press,2011:493—501. [10]Peng Yi,Zhang Yong,Tang Yu,et a1.An incident information nlna- [13]Thelwall M,Wilkinson D,Uppal S.Data mining emotion in social net— agement framework based on data integration,data mining,and multi- work communication:gender differences in MySpace[J].Journal of criteria decision making[J].Decision Support Systems,201 1,51 the American Society for Information Science and Technology, (2):316—327. 2010,61(1):190-199. [11]Ngai E W T,Hu Yong,Wong Y H,et a1.The application of data min— [14]Sun Yizhou,Han Jiawei,Yan Xifeng,et a1.Mining knowledge from in— ing techniques in financila fraud detection:a classiifcation framework terconnected data:a heterogeneous information network analysis p— and all academic review of literature[J].Decision Support Sys- preach[J].Proceedings of the VLDB Endowment,2012,5(12): tems,2011,50(3):559—569. 2022.2023. [12]Mohammed N,Chen Rui,Fung B,et a1.Differentially private data [15]Bal M.Rough sets theory as symbolic data mining method:na applica— release for data mining[C]//Proe of the 17th ACM SIGKDD Intema・ tion on complete decision table[J].Information Sciences Letters, tional Conference on Knowledge Discovery and Data Mining.New 2013,2(1):111-116.