基于成对约束的判别型半监督聚类分析
2020-11-03
来源:好走旅游网
ISSN 1000-9825,CODEN RUXUEW Journal ofSoftware,Vo1.19,No.11,November 2008,PP.2791—2802 DoI:10.3724/S J.1001.2008.02791 E—mail:jos@iscas.ac.cn http://www.jos.org.ca Tel/Fax:+86.10.62562563 @2008 by Journal ofSoftware.All rights reserved. 木 基于成对约束的判别型半监督聚类分析 尹学松 ,一,胡思良 ,陈松灿 (南京航空航天大学信息科学与技术学院,江苏南京(浙江广播电视大学计算机科学与技术系,浙江杭州210016) 310012) Discriminative Semi—Supervised Clustering Analysis with Pairwise Constraints YIN Xue Song‘ ,HU En.Liang ,CHEN Song—Can (College ofInformation Science and Technology,Nanjing University ofAeronautics&Astronautics,Nanjing 210016,China) (Department ofComputer Science and Technology,Zhejiang Radio&TV University,Hangzhou 310012,China) +Corresponding author:E—mail:s.chen@nuaa.edu.cn Yin XS,Hu EL,Chen SC.Discriminative semi-supervised clustering analysis with pairwise constraints. Journal ofSoftware,2008,19(11):2791~2802.http://www.jos.org.crdlO00-9825/19/2791.htm Abstract:Most existing semi-supervised clustering algorithms with pairwise constraints neither solve the problem of violation of pairwise constraints effectively,nor handle the high—dimensional data simultaneously.This paper presents a discriminative semi—supervised clustering analysis algorithm with pairwise constraints,called DSCA, which effectively utilizes supervised information to integrate dimensionality reduction and clustering.The proposed algorithm projects the data onto a low-dimensional manifold,where pairwise constraints based K-means algorithm is simultaneously used to cluster the data.Meanwhile,pairwise constraints based K-means algorithm presented in this paper reduces the computational complexity of constraints based semi-supervised algorithm and resolve the problem of violating pairwise constraints in the existing semi—supervised clustering algorithms.Experimental results on real・-world datasets demonstrate that the proposed algorithm can effectively deal with high-・dimensional data and provide an appealing clustering performance compared with the state-of-the-art semi-supervised algorithm. Key words:semi—supervised clustering;pairwise constraints;closure centroid;projection matrix;clustering analysis 摘要: 现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高 维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督 信息集成数据降维和聚类,即在投影空间中使用基于成对约束的 均值算法对数据聚类,再利用聚类结果选择投影 空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在 一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高 了聚类性能. 关键词: 半监督聚类;成对约束;闭包中心:投影矩阵:聚类分析 ・Supported by the National Natural Science Foundation ofChina under Grant Nos.60505004,60773061(国家自然科学基金) Received 2008・01-08;Accepted 2008—08—26 2792 Journal of Software软件学报Vo1.19,No.11,November 2008 中图法分类号:TP181 文献标识码:A 在机器学习和数据挖掘领域中,人们经常遇到大量的无类标号数据.对这些无标号数据进行标号时.不仅费 时、费力,有时甚至要付出相当大的代价,如会谈中说话人语音的分割与识别【”、GPS数据中的道路检测[ ]以及 电影片段中不同男演员或女演员的分组【3]等问题.因此,利用样本的先验知识来解决这一问题已成为机器学习 领域的研究热点[2-10].半监督聚类正是利用样本的先验信息或背景知识,通过充分利用无标号数据来完成对样 本数据的聚类.它也能自然地应用于无监督聚类算法,以达到提高无监督聚类性能的目的,故已开始成为机器学 习和数据挖掘中的重要研究内容之一. 现有的半监督聚类算法大致可分为3类.第1类是基于约束的半监督聚类算法(constraint.based semi. supervised clustering method,简称CBSSC)拉I4 ’ J.这类算法一般使用must.1ink和cannot.1ink成对约束来引导聚 类过程.must.1ink约束规定:如果两个样本属于must.1ink约束,那么这两个样本在聚类时必须被分配到同一个聚 类中.cannot.1ink约束则相应地规定:如果两个样本属于cannot—link约束,那么这两个样本在聚类时必须被分配 到不同聚类之中.第2类是基于距离的半监督聚类算法(distance.based semi—supervised clustering method.简称 DBSSC)[ ”】.这类算法利用成对约束来学习距离度量,从而改变各样本之间的距离,使其有利于聚类.第3类是 集成了约束与距离的半监督聚类算法(constraint and distance based semi.supervised clustering method。简称 CDBSSC)[b ._它实际上是上述两类方法的组合. 以上3类算法尽管利用成对约束来指导聚类,但在求解过程中常常遇到成对约束的违反问题,因而聚类结 果并不十分令人满意.如DBSSC通过利用must.1ink和cannot.1ink成对约束来学习一个距离函数,从而改变各 样本之间的距离,达到提升聚类性能的效果.但这类算法不能保证在改变样本间的距离后,must.1ink点对总能被 分组到同一聚类之中,而cannot—link点对则常有部分被分配到同一聚类之中,致使约束被违反.CBSSC是在 均 值算法的目标函数中通过添加惩罚项来试图解决成对约束的违反问题,但选择合适的惩罚因子是这类算法面 临的难题,因此,这类算法仍未能有效地解决约束违反问题.作为前两类方法组合的CBSSC继承了它们的不足, 因而同样未能实现对约束违反问题的有效解决.此外,这3类算法只适用于较低维数的样本数据.在遇到较高维 数的数据时,这些算法会显得力不从心,因为在高维数据空间中,不同数据分布和不同距离函数的样本点对之间 的距离几乎是相同的 , J. 针对高维数据聚类问题,Tang[8]等人提出了一种基于特征投影的半监督聚类算法,部分地解决了该问题,但 其不足是仅采用了must—link和cannot.1ink成对约束得到投影矩阵,而没有采用大量无标号样本数据,因此限制 了聚类性能的提高. 针对这些问题,本文提出一种基于成对约束的判别型半监督聚类分析方法(discriminative semi.supervised clustering analysis with pairwise constraints。简称DSCA).该方法首先利用must—link和cannot.1ik成对约束得到 n投影矩阵,在投影空间中对数据聚类得到聚类标号;其次,利用线性判别分析(1inear discriminant analysis,简称 LDA)选择子空问:最后,使用基于成对约束的 均值算法对子空问中的数据聚类.该方法有效地利用了监督信 息集成数据降维和聚类,即在投影空间中使用基于成对约束的 均值算法对数据聚类,再利用聚类结果选择投 影空间.同时。新方法提出的基于成对约束的 均值算法降低了基于约束的半监督聚类算法的计算复杂度,并解 决了聚类过程中成对约束的违反问题. 事实上,对数据聚类来说,得到聚类标号后,LDA选择的线性子空间是最好的子空问,因为在LDA子空间里, 各聚类之间能够被有效地分开[”】.因此,本文提出的算法利用LDA来选择子空间,在子空间里使用新的基于成 对约束的 均值算法对数据聚类.新算法的贡献表现为以下3个方面: (1)新算法将动态聚类方法引入半监督聚类之中,即聚类和降维同时进行.现有的半监督聚类方法要么只 关注监督信息对聚类的帮助[4-7,9,10 而忽略了对数据的降维,要么分离了聚类与降维 1.新算法利用聚 类结果进行子空间选择,然后在子空间中完成数据聚类,两者交替迭代进行,有效地提高了聚类性能. (2)新算法解决了成对约束的违反问题.CBSSC在 均值算法的目标函数中加入惩罚项来限制违反 尹学松等:基于成对约束的判别型半监督聚类分析 2793 must.1ink和cannot.1ink约束的样本对[6,7,9,10];DBSSC用监督信息去学习度量,进行聚类[3,5,11】.通常,这样 处理并不能有效地解决must.1ink和cannot.1ink约束的违反问题.新算法借助must.1ink成对约束的等 价关系,简化must.1ik成对约束,n构成新的cannot.1ink约束,并将其应用到 均值聚类之中,基本上解 决了must.1ink和cannot.1ink约束的违反问题. (3)基于成对约束的 均值算法改进了CBSSC.CBSSC在 均值聚类的目标函数中添加惩罚项,构成新的 目标函数来解决约束的违反问题,但选择合适的惩罚因子是该算法面临的难题.因此,该方法不仅难以 有效地解决成对约束的违反问题,还增加了算法的计算复杂度.基于成对约束的 均值算法只是将 cannot.1ink成对约束运用到 均值聚类中,在保持 均值聚类计算复杂度的情况下,提高了聚类性能。 本文提出的算法不仅集成了投影空间选择与数据聚类,还努力架起一座连接原空间中样本和子空间中样 本的桥梁.通过该桥梁,可以在全局最优的子空间中对数据聚类,避免了维数灾难的发生. 1基于成对约束的判别型半监督聚类分析算法 基于成对约束的判别型半监督聚类分析算法的框图如图1所示.对于给定的样本集合 [ 1 2,... ],其中 X ∈吼 ,must—link成对约束集合为^ { 啦)},cannot-link成对约束集合为c。_{ f)}.基于成对约束的判别型 半监督聚类分析算法由3步组成.首先是算法初始化,利用给定的must.1ik和cannotn.1ink成对约束集合得到一 个投影矩阵,在投影空间中对数据聚类得到聚类标号;其次,使用LDA选择子空间;最后,利用基于成对约束的 均值算法对数据聚类. Fig.1 Framework of the DSCA method 图l DSCA算法的框图 1.1初始化 在高维空间中,不同数据分布和不同距离函数的样本点对之间的距离几乎是相同的,因此,如果对样本聚 类,就有必要将高维数据投影到低维空间.设投影矩阵为 数据投影到一个低维空间: =r=[Wl…., 】,它包含,个m维正交单位向量,将原始 W ∈吼 ,l<m (1) 投影矩阵不仅要在投影空间中尽可能地保持原始数据的结构,还要使cannot.1ink集合中的点对之间距离 最大化、must-link集合中的点对之间距离最小化.因此,定义一个目标函数‘,( ,并相对 最大化其值来求取投 影矩阵 4]: 2794 Journal ofSoftware软件学报Vo1.19,No.11,November 2008 ( 羽1 l I-. 南 象肼 一 ll。 【南 募 (薯一 一 )L羽1 丢 ( 一 一 ) =‘2) ∑ DW, 其中,lCl和lM1分别表示cannot.1ink和must-link成对约束中的点对数. D:南 。( ( L南 象 ( ( f1 if i:, 。th。 i 。‘ 通过最大化式(2)可以得到最优的投影矩阵 不难发现,由于目标和约束所具有的凸性,我们能够获得 的 解析解.因此,利用KT定理,定义如下Lagrange函数: L(rV)= ( , ,...,w3-∑ ( 一1) 相对 求 (e,9的偏导,得到: =2D 一2 =0,Vi=1,...,, (3) a D = ,Vi:l,...,, (4) 显然,由方程式(4)可以解出最优的投影矩阵 严【 ,..., 就是由矩阵D的f个最大特征值所对应的特征 向量组成.进而可以利用式(1)将原始数据投影到低维空间并使用如下K均值算法( means)实现对低维数据的 聚类: mhnJ =∑∑IlXi一“ (5) 得到聚类标号. 对高维原始数据的聚类,一般地,首先降低它们的维数以避免维数灾难的发生.利用must-link和cannot-link 成对约束,由式(2)得到投影矩阵,在对数据投影时,尽可能地保持原始数据结构,并最大化cannot-link点对问的 距离、最小化must.1ink点对间的距离.因此,能够得到令人较为满意聚类结果,便于使用LDA选择子空间. 1.2基于成对约束的胸值聚类 作为CBSSC和DBSSC组合的CDBSSC,在目标函数中添加惩罚项 , ,试图解决约束的违反问题. 互 吒 g(det( ))j+ 磊 ‘≠ 】+(xi jl[‘ 在CDBSSC中,违反must.1ink约束的惩罚因子 和违反cannot-link约束的惩罚因子嘞取值分别如下: :*一砘+ 一_ --‘7) (8) Ix:,一x;I IXi-Xj AI iCDBSSC must lik n 指出:如果两个样本违反了 . 约束,则 的值是使用不同聚类中的度量得到的距离之和;如果两个样本违反了cannot.1ink约束,则研的值是该聚类里选择最远的两个样本之间的距离与这两个样本之 间的距离之差.显然,惩罚因子mf和 ,并不能够有效地解决约束的违反问题. 针对该问题,并受文献【8】的启发,本节引入一种基于成对约束的K均值聚类算法(pairwise constraint based means clustering method,简称PCBKM),该算法的目的就是寻找K个互不相交的样本分割,且不违反 尹学松等:基于成对约束的判别型半监督聚类分析 2795 cannot.1ink成对约束和must.1ink成对约束.为了解决成对约束的违反问题,首先合并must.1ink约束构建新的 cannot.1ink约束作为预处理,具体描述如下: 定义l(同类闭包).如果有3个样本al,a2和 3,(口1,a2)∈ (口2,a2)∈ 则(口l,口3)∈M并称al,a2和a3构成的集 合为同类闭包,简称闭包. 1 P 定义2(闭包中心).如果{ I,a2…., }构成一个同类闭包,口=亡∑q,P 则称口为闭包中心. i=1 定义3(异类闭包).如果存在两个闭包 ={口1,a2…., }和 ={6l,b2,..., ),以及(口f, )∈C,其中aiA,r ∈ ,则称 。 互为异类闭包. 为了简化约束,使用闭包中心之间的cannot.1ink约束代替样本之间的cannot—link约束.如图2所示,实线表 示must.1ink约束,虚线表示cannot.1ink约束,白点表示原始样本,黑点代表闭包中心.其中,{口l,a2,a3}和 {bl,b2,b3,b4,b5}分别表示两个闭包,a,b分别代表它们的闭包中心.样本之间的cannot-link约束就可以简化为闭包 中心a,b之间的cannot.1ink约束.特别地,如果一个样本不属于任何约束,则可以构造一个闭包,在该闭包里只有 这一个样本元素. 0-一一一一一一一● a b Fig.2 An illustration of combining must・link constraints to form new cannot-link constraints 图2合并must.1ik约束构成新的cannotn.1ink约束示意图 用闭包中心代替闭包,用两个闭包中心的cannot.1ink约束代替相应的异类闭包中样本间的cannot.1ink约 束,则合并must—link成对约束以后,原样本数据 可简化为 ,=[ , ,..., ,](rlml<r1),cannot-link成对约束的集 合改变为 尸{( ,x )}. 命题1.若以闭包中心取代闭包,两个异类闭包的闭包中心分别代替相应的cannot.1ink约束的异类闭 包,PCBKM对闭包中心聚类,则PCBKM能够解决must.1ink和cannot.1ink成对约束的违反问题. 证明:分两种情况来证明,一是证明PCBKM不违反must.1ink成对约束,二是证明PCBKM不违反 cannot.1ink成对约束. (1)PCBKM不违反must.1ink成对约束 证明:设 尸 1 2,…,Xp}为第i个同类闭包, 是 f的闭包中心,C={c1,C2….,c 是 个聚类集合, {“l, …., )是 个聚类分别对应的聚类中心集合. E“ “f∈ “f∈u,使得“f=argmin(][ 一" II ),得至0 E Ci. 因为闭包中心 代替了 f,所以墨∈G fcCi. 于是, f∈ j f∈ ,i=1,2,... .证毕. 口 上述结果避免了同类闭包 中的元素聚类到其他聚类中,解决了 中must.1ink成对约束的违反问题.类似 地,可以证明其他同类闭包不违反must.1ink成对约束. (2)PCBKM不违反cannot.1ink成对约束 证明:设A,-={Xl,x2,... )为第f个同类闭包, 是Af的闭包中心 『=x1 2,... )为第J个同类闭包, ,是 f 的闭包中心,且A 和 ,属于异类闭包. 由于cannot・link成对约束要求 和_『被聚类到不同的聚类中,故存在Ui,“f,且t,ti ̄ “『∈U,“f∈≠“,,使得 2796 Journal ofSoftware软件学报Vo1.19,No.11,November 2008 (Ui,Uj)=鹕 因此, ∈ , ,∈cj. “。. E U 、 II2+ 一 ” ”, (9)因为 是A,的闭包中心, ,是 ,的闭包中心, 所以,可得Afcci ̄ajcG. 即V f∈ f f∈G,卢1,2,... ; ∈ 力∈ 户1,2,... .证毕. 口 由以上证明不难发现,互为异类闭包的两个闭包中的样本分别聚类到两个不同的聚类中,符合cannot.1ink 的要求,解决了cannot.1ink成对约束违反问题. PCBKM的伪代码见算法1.PCBKM的计算复杂度是O(tn ,, )(nrnl<V1),其中,,是样本维数,n ,是合并 must.1ink成对约束后的样本数, 是原样本数,f是迭代次数.不难发现,PCBKM的计算复杂度小于或者等于 K-means的计算复杂度(O(tnl2)).因此,PCBKM是一种简单而有效的算法. 算法1.基于成对约束的 均值算法(PcBKM). 输入:样本数据 ,、cannot.1ink约束集合 ,和聚类数目 输出: 个不相交的样本分割. Step 1.初始化聚类中心. Step 2.重复执行下面的步骤,直到收敛为止. for f=1 to l'lml (a)对一个闭包不与任一个闭包构成异类闭包,找到一个聚类中心U 使该闭包中心 满足 =argmin ̄f 一 8 ; (b)对于互为异类闭包的两个闭包, 和x y是它们的闭包中心,( , )∈ f,找到两个聚类中心 “ 和 ,使minf IIx;- ̄ti (c)对某个聚类c ,更新其聚类中心Ui=÷∑ i‘. ij=l Step 3.返回 个不相交的样本分割. CDBSSC在K-means的目标函数中添加惩罚项,试图解决约束的违反问题.但选择合适的惩罚因子是该类 算法面临的难题.因此,这类算法不仅难以解决约束的违反问题,而且还增加了算法的计算复杂度(O(tnl4)).本节 提出的PCBKM,其思想是用must—link,cannot.1ink约束分别构成同类闭包和异类闭包,并应用于K-means中,在 保持其计算复杂度的情况下,解决成对约束的违反问题,有效地提高聚类性能,并通过合并must.1ink约束,可以 简化原始样本,有助于算法实现大规模数据集的处理. 1.3基于成对约束的判别型半监督聚类算法 基于上面的描述,本文提出一种同时执行子空间选择和聚类的判别型半监督聚类分析算法,见算法2.其步 骤如下: 算法2.基于成对约束的判别型半监督聚类分析算法(DSCA). 输入:样本数据 must—lik和cannotn 1ik成对约束、聚类数目 n输出: 个样本分割. Step 1.根据第1.1节,得到K个样本分割,t=1. Step 2.执行以下步骤: (a)利用 个样本分割,在原样本空间中计算LDA,得到子空间; (b)使用PCBKM对子空间中的样本聚类,得到 个样本分割; (C)f:f+l,返回Step 2,直到算法收敛为止. 尹学松等:基于成对约束的判别型半监督聚类分析 2797 Step 3.返回K个样本分割. 类似于文献[13,15,16]的结果,可以证明DSCA在有限步内收敛.在实验中观察到,不到10次迭代即收敛. 从上述算法可以发现,DSCA的复杂度主要是在求解PCBKM上.PCBKM的计算复杂度是O(tn ,, ),因此, DSCA的复杂度为O(ptn ,/2),p是DSCA迭代次数. 2实验及其分析 首先比较本文的算法PCBKM与CDBSSC,以验证它们解决成对约束的违反问题.其次,将本文算法DSCA 与现有相关的半监督算法进行比较. 2.1 PCBKM与CDBSSC的比较 2.1.1人工数据集上的实验 考虑两类人工数据集,如图3(a)所示,实线连接的两个样本属于同一聚类,是must-link约束;虚线连接的两个 样本属于不同聚类,是cannot.1ink约束.在实验中,违反must.1ik约束用实线表示,n违反cannot-link约束用虚线 表示.如果解决了约束违反问题,则不用实线和虚线表示. (a)Original must—link and cannot-link constraints (a)原must—lik和cannot—nlink约束 (b)Clustered results of CBSSC (b)CBSSC聚类结果 (c)Clustered results of CDBSSC (d)Clustered results ofPCBKM (c)CDBSSC聚类结果 (d)PCBKM聚类结果 Fig.3 Comparison of the violation issue of the constraints solved by PCBKM and CDBSSC 图3 PCBKM与CDBSSC解决约束违反问题的比较 从图3(b)中不难发现,实线连接的must.1ink点对已经被CBSSC分组到不同的聚类中,虚线连接的 cannot-lik点对被聚类成相同的类.n因此,该算法未能有效地解决约束的违反问题.同样的问题可以由图3(c)中 2798 Journal ofSoftware软件学报Vo1.19,No.11,November 2008 发现,即CDBSSC仍未能有效地解决约束的违反问题.本文提出的PCBKM解决了成对约束的违反问题,如 图3(d)所示. 2.1.2真实数据集上的实验 通过两个UCI数据集,分别测试CDBSSC和PCBKM解决约束的违反问题.在表1中,对Ionosphere数据集 而言,选择must.1ink和cannot.1ink的点对分别为79对和66对,CDBSSC聚类时,违反must.1ink约束的点对数 为l4对,违反cannot.1ink约束的点对数为36对.本文提出的算法PCBKM解决了成对约束的违反问题. Table 1 Comparison of the numbers of constraints violated by PCBKM and CDBSSC 表1 PCBKM和CDBSSC违反成对约束数的比较 Dataset must.1ink cannot—likn CDBSSC PCBKM must-likn cannot—likn must—link cannot.1ikn Ionosphere 79 66 14 36 0 0 IriS l6 16 6 7 0 0 2.2 DSCA与其他相关半监督算法的比较 2.2.1 实验设置 首先,我们从UCI数据集上选择了7个较低维数的数据集,它们分别是Balance,Ionosphere,Iris,Letter, Soybean,Vehicle和Wine.同时选择了5个较高维数的数据集,它们是YaleB人脸数据集、ORL人脸数据集和3 个文本数据集News.Different,News.Same,News.Similar. 然后,我们选择4种聚类算法作为对比,来验证DSCA的性能.这4种算法是: (1)K-means.它是一种常用的、适合于较低维数的样本数据的聚类算法. (2)相关成分分析算法(RcA)[3】.该算法是最近被提出来的一种半监督度量学习算法,实验结果已经表明其 性能优于由Xing等人【 l提出的基于约束的半监督度量学习算法.在使用RCA对样本数据进行度量变 换后,使用K-means对变换后的数据聚类. (3)局部线性嵌入(LLE)【"1.它是无监督降维方法.使用该方法对较高维数的样本数据降维,然后使用 K-means对数据聚类. (4)特征投影的半监督聚类算" ̄(SCREEN)tSk该方法借助于must.1ink和cannot-link成对约束得到投影矩 阵,在子空间中用基于约束的球形 均值算法对数据聚类.它既可用于对低维数据聚类,也可用于对高 维数据聚类. 本文采用规范化互信,g(NMI)作为聚类的评价方法【61.如果C是样本聚类后的类标号,y是样本原有类标号, 则NMI表示为 NMt(c = (10 其中I(C;IO=H(Y) y10是C和y之间的互信息 y)是y的香农熵, 0是在给定c的条件下,y的条件 熵.NMI值的范围在0,1之间,NMI值越大,聚类的性能就越好.一般而言,NMI评价方法要优于其他评价方法L8】. 最后,算法运行在Intel Pentium 3.00GHz CUP,1G内存Windows环境下的机器上.5种算法分别在每个数据 集上重复实验15次,在每次实验中选择100对成对约束,并在整个数据集上来测试算法的性能,取15次实验 NMI值的均值作为最终的聚类结果.在对数据降维时,一般设置维数降到』,__1维(其中 是聚类数). 2.2.2实验结果 表2和表3是在12个数据集上分别执行5种算法得到的NMI值.表2中的数据是低维数据,在对低维数据 聚类时,DSCA的NMI值在Iris,Letter,Soybean和Wine四个数据集上占优,SCREEN的NMI值在Balance数据 集上效果好,RCA的NMI值在Ionosphere和Vehicle两个数据集上占优.总体而言,DSCA的性能在低维数据集 上优于其他3种算法.表3中的数据是高维数据.不难发现,在对高维数据聚类时,DSCA的NMI值要高于其他3 种算法的NMI值.其次,NMI值较好的是SCREEN,而RCA对高维数据进行处理时NMI值较差.所以,对高维数 尹学松等:基于成对约束的判别型半监督聚类分析 2799 据聚类,DSCA的性能要优于其他几种算法.DSCA利用了监督信息集成数据降维和聚类,且聚类时考虑了成对 约束的违反问题,因此,DSCA的性能要优于其他几种算法. 在DSCA初始化得到投影矩阵后,使用PCBKM代替K-means,这样有利于LDA选择子空间. Table 2 Comparison of NMI achieved by DSCA and three methods on seven low-dimensional datasets 表2 DSCA与3种算法在7个低维数据集上的NMI值的比较 Table 3 Comparison of NMI achieved by DSCA and trhee methods on five high-dimensional datasets 表3 DSCA与3种算法在5个高维数据集上的N/VII值的比较 2.3成对约束对DSCA性能的影响 Must.Link和cannot.1ink成对约束由用户提供,半监督聚类算法一般认为这两个约束是正确的.本文提出的 DSCA和其他半监督聚类算法借助于must.1ink和cannot.1ink成对约束来提高聚类性能. 由表2和表3不难发现,DSCA的性能优于其他几种算法.为了更好地理解成对约束对半监督聚类算法性能 的影响,实验过程中选择了不同数量的成对约束.从图4中可以观察到,尽管几种算法的性能都随着成对约束的 数量增多而逐渐提高,但不同数量的成对约束对几种算法性能的影响是不同的.在成对约束数量较少(如lo) 时,DSCA的NMI值高于其他几种算法的NMI值.在成对约束数量逐渐增多时,DSCA的NMI值平稳上升,其性 能优于其他几种算法. SCREEN借助于must.1ink和cannot.1ink成对约束得到投影矩阵,在子空间中用基于约束的球形 均值算 法对数据聚类.因此,选择的must.1ink和cannot.1ikn成对约束得到好的投影矩阵对该算法至关重要.本文提出的 DSCA是在初始化步骤里借助于这两种约束得到投影矩阵。进而在子空间中得到初始聚类.所以。当选择的 must.1ink和cannot.1ink成对约束得不到好的投影矩阵时,对DSCA的聚类会产生一定的影响,但由于DSCA利 用无标号样本来重新得到投影矩阵,所以在固定成对约束数量的情况下,选择相同的成对约束对DSCA性能的 影响比对SCREEN性能影响要小. 要解决上述问题,一个自然的想法就是需要尽可能多地选择must.1ink和cannot.1ink成对约束,但提供更多 的成对约束需要付出很大的代价.因此,在有限的must.1ikn和cannot.1ink成对约束中,选择有利于聚类算法的成 对约束将是一个挑战. 3相关工作 CBSSC首先是由Wagstaff[ 等人提出来的,他们将must.1ink和cannot.1ink成对约束运用到无监督聚类中. 由于该算法在聚类过程中严格限制成对约束的使用,因此,该算法的聚类性能受到了影响.Bual[ 等人提 出,CBSSC是从带有类标号的样本中设法找到更好的初始聚类中心,并将这些带有类标号的样本用于聚类过程. 该方法使用的有监督信息是带有类标号的样本,而不是成对约束.相对于约束的半监督聚类算法,基于距离的半 监督聚类算法是通过有监督信息去学习一个距离函数,以此来提高聚类性能.Xing[51等人利用成对约束和牛顿 2800 鲫 如 Journal ofSoftware软件学报Vo1.19,No.11,November 2008 O O O 0 O O O O O O O ∞ 如 娜 ∞ 迭代法来学习一个马氏距离并应用到聚类中.Bar.Hillel[ 等人提出的方法仅仅利用must.1ink成对约束得到块 (chunk1et)协方差矩阵,然后对块协方差矩阵进行白化变换来学习一个马氏距离.Yeung[ 等人提出的方法是 Bar.Hillel所提出方法的改进,用must.1ink cannot.1ink成对约束得到块协方差矩阵.Schultz㈣等人提出的方法 是从相对约束关系中学习一个带有权值的欧氏距离.Bual和Bilenko[ , 提出的方法是集成must.1ink,cannot.1ink 成对约束和度量学习,应用到聚类中. 0.95 0.90 ()l85 至 Z z 0.80 0.75 O O O O O O 0.70 10 20 30 40 5() 60 70 80 90 l00 Number ofconstraints ∞ Number ofconstraints 蛐 如 l0 20 30 40 50 60 70 80 90 1O0 (a)Balance datasets (a)Balance数据集 ().90 0.85 0.80 0.75 (b)Iris datasets (b)Iris数据集 = Z 0.70 0 65 0 60 0.55 10 20 30 40 10 2O 3O 40 50 60 70 80 90 lO0 Number of constraints Number ofconstraints (c)S0ybean datasets (c)Soybean数据集 (d】Wine datasets (d)Wine数据集 Fig.4 Relative impact on the performance of choosing the different numbers of pairwis constraints 图4选择不同数量的成对约束对算法性能的影响 上述算法只适用于低维空间.对高维数据聚类,一种方法是利用无监督降维方法对高维数据降维,然后使用 上述方法对数据聚类;另一种方法是寻找新的算法,借助于有监督信息,对高维数据降维并聚类.前一种聚类方 法已经得到验证,结果不能令人满意I .因此,只能寻找新的半监督聚类方法来解决高维数据聚类问题.Wei[8】等 人提出基于特征投影的半监督聚类算法,该算法利用must.1ik和cannotn.1ik成对约束得到投影矩阵,n在投影空 问中应用基于约束的球形 均值聚类方法对数据聚类.该算法可以解决高维数据聚类问题,但其缺点是只使用 must.1ink和cannot.1ink成对约束得到投影矩阵,既没有考虑到大量无标号样本数据,又忽略了降维和聚类的相 互促进,因此限制了聚类性能的提高. 最近,一些学者针对高维数据的无监督聚类提出了新的方法.De la Torre[191等人提出判别聚类分析算法.该 算法集成了降维和聚类,即首先对高维数据降维,然后在低维空间中对数据聚类.Chris Ding[”】等人提出了一种 自适应无监督降维迭代算法.该算法使用K-means来产生数据的类标号,然后用线性判别分析方法对高维数据 尹学松等:基于成对约束的判别型半监督聚类分析 2801 降维.在降维空间中,再使用K-means方法对数据聚类.ye[ 】提出了自适应距离学习聚类算法.该算法同样是集 成降维和聚类,但不同的是,算法是最优化同一个目标函数来得到聚类和降维.以上3种方法的目的是通过降维 来帮助聚类,再通过聚类来指导降维,但它们都没有解决好一个难题,即在高维空间中,算法是先执行降维还是 先执行聚类.本文提出的基于成对约束的判别型半监督聚类分析算法先借助于成对约束求解投影矩阵,然后在 子空间中聚类,再利用聚类结果指导降维.显然,新算法不仅在很大程度上解决了上述无监督聚类算法所面临的 问题,而且充分利用有监督信息,有效地提高了聚类性能. 借助于一部分有监督信息,半监督聚类在很大程度上提高了无监督聚类的性能.因此,一些研究人员着力去 研究监督信息在聚类分析中的作用,并将其运用到半监督分类和半监督回归等方面.目前,半监督学习已经受到 越来越多的研究者的重视. 4结束语 本文提出了一种基于成对约束的判别型半监督聚类分析方法.新方法首先利用must.1ink和cannot.1ink成 对约束得到初始投影矩阵,在投影空间中对数据聚类;然后,利用LDA选择子空间;最后,使用基于成对约束的 均值算法对子空间中的数据聚类.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基 于成对约束的 均值算法对数据聚类,再利用聚类结果选择投影空问.同时,新方法提出的基于成对约束的 均 值算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题. 在半监督聚类算法中,监督信息越多,越有助于算法性能的提高.但由于监督信息由用户提供,代价较大.因 此,在有限的must.1ink和cannot.1ink成对约束中,选择有利于提高算法性能的成对约束将是一个让人感兴趣的 课题,也是我们下一阶段工作的方向. 致谢张道强教授和蔡维玲博士对本文的工作提出了有益的建议,我们在此表示感谢 References: f1] Bar-Hillel A,Hertz T,Shantal N,Weinshall D.Learning a mahalanobis metric from equivalence constraints.Journal ofMachine Leaming Research,2005,6(5):937—965. [2] Wagstaff K,Cardie C,Rogers S,Schroedl S.Constrained K-means clustering with background knowledge.In:Brodley CE, Danyluk AP,eds.Proc.ofthe 18th Int’1 Conf.on Machine Learning.Williamstown:Morgan Kaufmann Publishers,2001.577—584. [3] Bar—Hillel A,Hertz T,Shental N,Weinshall D.Learning distance functions using equivalence relations.In:Fawcett T,Mishra N, eds.Proc.ofthe 20th Int’1 Conf.on Machine Learning.Washington:Morgan Kaufmann Publishers,2003.1 1-18. [4] Basu S,Baneoee A,Mooney RJ.Semi—Supervised clustering by seeding.In:Sammut C,Hoffmann AG,eds.Proc.of the 1 9th Int’1 Conf.on Machine Learning.Sydney:Morgan Kaufmann Publishers,2002.1 9-26. 【5]Xing EP,Ng AY,Jordan MI,Russell S.Distance metric learning with application to clustering with side—information.In:Becher S. Thrun S,Obermayer K,eds.Proc.of the 16th Annual Con ̄on Neural Information Processing SystemCambridge:MIT Press. .2003.505-5 l2. 【6]Basu S,Banerjee A,Mooney RJ.A probabilistic framework for semi—supervised clustering.In:Boulicaut JF,Esposito F,Ginnotati F,Pedreschi D,eds.Proc.of the 10th ACM SIGKDD Int’1 Conf.on Knowledge Discovery and Data Mining.New York:ACM Press,2004.59-68. [7]Bilenko M,Basu S,Mooney RJ.Integrating constraints and metric learning in semi—supervised clustering.In:Brodley CE.ed.Proc. ofthe 21 st Int’1 ConE on Machine Learning.New York:ACM Press,200481—88. .[8]Tang W,Xiong H,Zhong S,Wu J.Enhancing semi—supervised clustering:a feature projection perspective.In:Berkhin P.Caruana R,Wu XD,eds.Proc.of the 1 3th ACM SIGKDD Int’1 Conf.on Knowledge Discovery and Data Mining.New York:ACM Press2007.707-716. , [9]Basu S,Banerjee A,Mooney RJ.Active semi—supervision for pairwise constrained clustering.In:Jonker W,Petkovic M,eds.Proc. of the SIAM Int’1 Conf.on Data Mining.Cambridge:MIT Press2004.333—344. ,2802 Journal of Software软件学报Vo1.19,No.11,November 2008 B,Domeniconi C.An adaptive kernel method for semi—supervised clustering.In:Ftirnkranz J,Scheffer T,Spiliopoulou M,eds [10] Yan Proc.of the 1 7th European Conf.on Machine Learning.Berlin:Sigma Press,2006.1 8-22. Yeung DY,Chang H.Extending the relevant component analysis algorithm for metric learning using both positive and negative equivalence constraints.Pattern Recognition,2006,39(5):1007—1010. K,Goldstein J,Ramakrishnan R,Shaft U.When is“Nearest Neighbors Meaningful”?In:Beeri C,Buneman P,eds.Proc.of [12] Beyerthe Int’1 Conf.on Database Theory.New York:ACM Press,1999.217-235. [1 3] Ding CH,Li T.Adaptive dimension reduction using diseriminant analysis and K-means clustering.In:Ghahramani Z,ed.Proc.of the 19th Int’1 Conf.on Machine Learning.New York:ACM Press,2007.521-528. [14] Zhang DQ,Zhou ZH,Chen SC.Semi—Supervised dimensionality reduction.In:Mandoiu I,Zelikovsky A,eds.Proc.of the 7th SIAM Int’1 Conf.on Data Mining.Cambridge:MIT Press,2007.629-634. JP,Zhao Z,Liu H.Adaptive distance metric learning for clustering.In:Bishop CM,Frey B,eds.Proc.of IEEE Computer [1 5] YeSociety Conf.on Computer Vision and Pattern Recognition.Madison:IEEE Computer Society Press,2007.1-7. JH,Zhao Z,Ye JP,Liu H.Nonlinear adaptive distance metric learning for clustering.In:Berkhin P,Caruana R,Wu XD,eds. 【16] Chen Proc.ofthe 13th ACM SIGKDD Int’1 Conf.on Knowledge Discovery nd aData Mining.New York:ACM Press,2007.123—132. LK,Roweis ST.Think globally,fit locally:Unsupervised learning of low dimensional manifolds.Journal of Machine [17] SaulLearning Research,2003,4(3):1 19-155. tz M,Joachims T.Learning a distnce ametric from relative comparisons.In:Thrun S,Saul LK,Sch61kopf B,eds.Proc.of the [18] Schul17th Annual Conf.on Neural Information Processing System.Cambridge:MIT Press,2004.41—48. a ToⅡe F,Kanade T.Discriminative cluster analysis.In:William WC,Andrew M,eds.Proc.of the 19th Int’1 Conf.on [19] De lMachine Learning.New York:ACM Press,2006.241—248. 尹学松(1975一),男,安徽长丰人,博士生, 主要研究领域为模式识别,神经计算. 胡恩 ̄(1975一),男,博士生,主要研究领域 为模式识别。神经计算. _ 陈师别松,C神灿经F(计高19算6级2,会机一员器),男学主,习博要,研士图究像,教领处授域理,博.为 士模生式识导