您的当前位置:首页正文

多层次分类方法[发明专利]

2023-02-05 来源:好走旅游网
(19)中华人民共和国国家知识产权局

*CN102135981A*

(10)申请公布号 CN 102135981 A(43)申请公布日 2011.07.27

(12)发明专利申请

(21)申请号 201010621985.1(22)申请日 2010.12.30(30)优先权数据

12/693,147 2010.01.25 US(71)申请人安克生医股份有限公司

地址中国台湾台北市复兴北路

(72)发明人张金坚 陈文华 陈正刚 陈炯年

何明志 戴浩志 吴明勋 巫信融(74)专利代理机构中科专利商标代理有限责任

公司 11021

代理人周长兴(51)Int.Cl.

G06F 17/30(2006.01)

权利要求书 3 页 说明书 16 页 附图 17 页

(54)发明名称

多层次分类方法(57)摘要

本发明是有关于一种多层次分类方法,其方法至少包括:(a)接收复数个原始样本;(b)提供复数个属性,并以一多变量参数对此些原始样本由此些属性进行显著性评估计算;(c)选择至少一切点并建立一判别分析模型;(d)进行一评估模型效能的步骤,将此判别分析模型中加入此些属性进行显著性评估;以及(e)加入一停止条件。本发明亦提供一种计算机可纪录媒体,以由使用一多层次分类方法的方式对此些影像样本进行分类。

CN 102135981 ACN 102135981 ACN 102135986 A

权 利 要 求 书

1/3页

1.一种多层次分类方法,是于一计算机可纪录媒体中用以分类多个影像样本,该计算机可纪录媒体包括有一处理器、一输入装置、及一储存装置,该方法至少包括下列步骤:

(a)接收复数个原始样本;(b)提供复数个属性,并以一多变量参数对该些原始样本由该些属性进行显著性评估计算;

(c)选择至少一切点并建立一判别分析模型,将该步骤(b)中评估后具有显著性者其中之一,提供一变量同质分析参数筛选出该至少一切点,将该些属性评估后具有显著性者中所包含的该复数个原始样本分群为至少一类别以建立该判别分析模型,其中该至少一类别包括有第一类别、第二类别及未决定的第三类别;

(d)进行一评估模型效能的步骤,将该判别分析模型中加入该些属性进行显著性评估;其中,当加入该至少一属性后有增进该判别分析模型的显著性时,便进入该判别分析模型的下一层,再以该变量同质分析参数筛选出至少一切点,将该判别分析模型中加入该些属性评估后具有显著性者中所包含的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别;以及

(e)加入一停止条件,该停止条件是以选择该变量同质分析参数,若不拒绝虚无假设,该判别分析模型即停止往下一层分群;或在该评估模型效能的步骤中加入该些属性以一回归分析法进行显著性评估,当加入该些属性后无法提升该判别分析模型的显著性时,若拒绝虚无假设,该判别分析模型即停止往下一层分群。

2.如权利要求1所述的多层次分类方法,其中,在加入该停止条件时,该判别分析模型的最后一层分类层中,该未决定的第三类别中所包含的样本数为零。

3.如权利要求1所述的多层次分类方法,其中,该多变量参数为Wilk’s lambda或Gini index。

4.如权利要求1所述的多层次分类方法,其中,该显著性评估计算是以一F统计量算出的p值,以该p值表示该些属性在该类别间平均的差异显著性;或以一衡量不纯度的准则判断;

其中,该F统计量为

该不纯度(impurity)为

其中,n为样本空间,p为属性的数目,Λ则为Wilk’s lambda;其中,NL为第一类别的样本空间,NM为第三类别的样本空间,NR为第二类别的样本空间,tL为第一类别的Gini值,tM为第三类别的Gini值,tR为第二类别的Gini值。

5.如权利要求1所述的多层次分类方法,其中,该些属性是至少一选自由ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3及MI2所组成的群组。

6.如权利要求1所述的多层次分类方法,其中,该变量同质分析参数为Gini index、

2

CN 102135981 ACN 102135986 A

权 利 要 求 书

2/3页

Mahalanobis distance或Youden’s Index。

7.如权利要求1所述的多层次分类方法,其中,该评估模型效能的步骤包括:在与步骤(c)所建立的该判别分析模型同层中加入该些属性,以增加该判别分析模型的原同层中的区别能力。

8.如权利要求1所述的多层次分类方法,其中,该评估模型效能的步骤包括:在该第三类别上加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别。

9.如权利要求1所述的多层次分类方法,其中,该评估模型效能的步骤包括:将第一类别设定为未决定的类别,并将第一类别加上未决定的第三类别而形成的组合中加入该至少一属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别。

10.如权利要求1所述的多层次分类方法,其中,该评估模型效能的步骤包括:将第二类别设定为未决定的类别,并将第二类别加上未决定的第三类别而形成的组合中加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别。

11.如权利要求1所述的多层次分类方法,其中,该回归分析法包括一顺向选择法使用的partial F-test。

12.一种用以分类多个影像样本的计算机可纪录媒体,以建立一多层次分类方法对该些影像样本进行分类,该计算机可纪录媒体包括有一处理器、一输入装置、及一储存装置,该多层次分类方法至少包括下列步骤:

(a)接收复数个原始样本;(b)提供复数个属性,并以一多变量参数对该些原始样本由该些属性进行显著性评估计算;

(c)选择至少一切点并建立一判别分析模型,将该步骤(b)中评估后具有显著性者其中之一,提供一变量同质分析参数筛选出该至少一切点,将该些属性评估后具有显著性者中所包含的该复数个原始样本分群为至少一类别以建立该判别分析模型,其中该至少一类别包括有第一类别、第二类别及未决定的第三类别;

(d)进行一评估模型效能的步骤,将该判别分析模型中加入该些属性进行显著性评估;其中,当加入该些属性后有增进该判别分析模型的显著性时,便进入该判别分析模型的下一层,再以该变量同质分析参数筛选出至少一切点,将该判别分析模型中加入该些属性评估后具有显著性者中所包含的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别;以及

(e)加入一停止条件,该停止条件是以选择该变量同质分析参数,若不拒绝虚无假设,该判别分析模型即停止往下一层分群;或在该评估模型效能的步骤中加入该些属性以一回归分析法进行显著性评估,当加入该些属性后无法提升该判别分析模型的显著性时,若拒绝虚无假设,该判别分析模型即停止往下一层分群。

13.如权利要求12所述的计算机可纪录媒体,其中,在加入该停止条件时,该判别分析模型的最后一层分类层中,该未决定的第三类别中所包含的样本数为零。

3

CN 102135981 ACN 102135986 A

权 利 要 求 书

3/3页

14.如权利要求12所述的计算机可纪录媒体,其中,该多变量参数为Wilk’s lambda或Gini index。

15.如权利要求12所述的计算机可纪录媒体,该显著性评估计算是以一F统计量算出的p值,以该p值表示该些属性在该类别间平均的差异显著性;或以一衡量不纯度的准则判断;

其中,该F统计量为

该不纯度(impurity)为

其中,n为样本空间,p为属性的数目,Λ则为Wilk’s lambda;其中,NL为第一类别的样本空间,NM为第三类别的样本空间,NR为第二类别的样本空间,tL为第一类别的Gini值,tM为第三类别的Gini值,tR为第二类别的Gini值。

16.如权利要求12所述的计算机可纪录媒体,其中,该些属性是至少一选自由ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3及MI2所组成的群组。

17.如权利要求12所述的计算机可纪录媒体,其中,该变量同质分析参数为Gini index、Mahalanobis distance或Youden’s Index。

18.如权利要求12所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:在与步骤(c)所建立的该判别分析模型同层中加入该些属性,以增加该判别分析模型的原同层中的区别能力。

其中,该评估模型效能的步骤包括:在该19.如权利要求12所述的计算机可纪录媒体,

第三类别上加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别。

20.如权利要求12所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:将第一类别设定为未决定的类别,并将第一类别加上未决定的第三类别而形成的组合中加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别。

21.如权利要求12所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:将第二类别设定为未决定的类别,并将第二类别加上未决定的第三类别而形成的组合中加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别、第二类别及未决定的第三类别。

22.如权利要求12所述的计算机可纪录媒体,其中,该回归分析法包括一顺向选择法使用的partial F-test。

4

CN 102135981 ACN 102135986 A

说 明 书多层次分类方法

1/16页

技术领域

[0001]

本发明是关于一种多层次分类方法,尤其指一种适用于建立一种多层判别分析模

型,以及决定属性选择和切点的分类方法。背景技术

分类方法的用途非常广泛,举例来说,在金融业上,银行在审核信用卡用户时,能辨别此位申请人是否会容易变成呆帐;在医药学理上,能判断细胞组织为正常或异常;在营销的研究上,能判断此种营销方法能否吸引顾客购买商品。因此,在数据探勘的领域里,占有及重要的部分即是在探讨分类方法。

[0003] 分类方法是一种监督式学习(supervised learning)的方法,所谓的监督式学习方法是在知道目标输出值的情形下来进行数据探勘,反之则称为非监督式学习(unsupervised learning),如主成分分析(Principal component analysis)即为一种非监督式学习的方法。在分类方法里,一般需要选择适当的属性(attribute)来建立分类模型,例如,用身高和体重来判断这个人是男生或是女生,身高及体重即称为属性。建立分类模型时也往往会先把数据分成两群,一群为训练样本(training samples),另一群为独立测试样本(independent test samples),并使用训练样本来建立一个分类模型,独立测试样本则是用来验证此分类模型是否稳健。[0004] 目前,以两种现有的分类方法较为常见,分别为在多变量统计分析中常见的费雪线性判别分析(Fisher linear discriminant Analysis,FLD),以及分类与回归树(Classification and regression trees,CART)。然而,本案发明人发现,在基于前述分类方法中,尤其在属性的选择上,部分属性只能判别特定类别而影响其分类应用的准确性;且在以往分类模型的建立上,会因其属性的选择不同,或未对所欲分类的判别分析模型进行效能的评估,进而影响分类的准确性。[0005] 因此,目前亟需一种新的多层次分类方法以解决上述问题。

[0002]

发明内容

本发明的目的在于提供一种多层次分类方法,由多层判别分析模型,在每一层会寻找一或两个切点来对一或两个类别做出分类,且每一层可以同时使用多个属性,并通过费雪判别分析来找到这些属性的最佳线性组合。

[0007] 本发明的又一目在于提供一种用以分类多个影像样本的计算机可纪录媒体,以建立一多层次分类方法对此些影像样本进行分类。[0008] 为实现上述目的,本发明提供的多层次分类方法,是于一计算机可纪录媒体中用以分类多个影像样本,该计算机可纪录媒体包括有一处理器、一输入装置、及一储存装置,该方法至少包括下列步骤:

[0009] (a)接收复数个原始样本;[0010] (b)提供复数个属性,并以一多变量参数对该些原始样本由该些属性进行显著性

[0006]

5

CN 102135981 ACN 102135986 A

说 明 书

2/16页

评估计算;

[0011] (c)选择至少一切点并建立一判别分析模型,将该步骤(b)中评估后具有显著性者其中之一,提供一变量同质分析参数筛选出该至少一切点,将该些属性评估后具有显著性者中所包含的该复数个原始样本分群为至少一类别以建立该判别分析模型,其中该至少一类别包括有第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN);[0012] (d)进行一评估模型效能的步骤,将该判别分析模型中加入该些属性进行显著性评估;其中,当加入该至少一属性后有增进该判别分析模型的显著性时,便进入该判别分析模型的下一层,再以该变量同质分析参数筛选出至少一切点,将该判别分析模型中加入该些属性评估后具有显著性者中所包含的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN);以及[0013] (e)加入一停止条件,该停止条件是以选择该变量同质分析参数,若不拒绝虚无假设,该判别分析模型即停止往下一层分群;或在该评估模型效能的步骤中加入该些属性以一回归分析法进行显著性评估,当加入该些属性后无法提升该判别分析模型的显著性时,若拒绝虚无假设,该判别分析模型即停止往下一层分群。[0014] 所述的多层次分类方法,其中,在加入该停止条件时,该判别分析模型的最后一层分类层中,该未决定的第三类别(NodeN)中所包含的样本数为零。[0015] 所述的多层次分类方法,其中,该多变量参数为Wilk’s lambda或Gini index。[0016] 所述的多层次分类方法,其中,该显著性评估计算是以一F统计量算出的p值,以该p值表示该些属性在该类别间平均的差异显著性;或以一衡量不纯度(impurity)的准则判断;

[0017] 其中,该F统计量为

[0018] [0019] [0020]

该不纯度(impurity)为

其中,n为样本空间(sample size),p为属性的数目,Λ则为Wilk’s lambda;[0022] 其中,NL为第一类别的样本空间,NM为第三类别的样本空间,NR为第二类别的样本空间,tL为第一类别的Gini值,tM为第三类别的Gini值,tR为第二类别的Gini值。[0023] 所述的多层次分类方法,其中,该些属性是至少一选自由ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3及MI2所组成的群组。

[0024] 所述的多层次分类方法,其中,该变量同质分析参数为Gini index、Mahalanobis distance或Youden’s Index。[0025] 所述的多层次分类方法,其中,该评估模型效能的步骤包括:在与步骤(c)所建立的该判别分析模型同层中加入该些属性,以增加该判别分析模型的原同层中的区别能力。[0026] 所述的多层次分类方法,其中,该评估模型效能的步骤包括:在该第三类别(NodeN)上加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选

[0021]

6

CN 102135981 ACN 102135986 A

说 明 书

3/16页

出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN)。[0027] 所述的多层次分类方法,其中,该评估模型效能的步骤包括:将第一类别(NodeA)设定为未决定的类别,并将第一类别(NodeA)加上未决定的第三类别(NodeN)而形成的组合中加入该至少一属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN)。[0028] 所述的多层次分类方法,其中,该评估模型效能的步骤包括:将第二类别(NodeB)设定为未决定的类别,并将第二类别(NodeB)加上未决定的第三类别(NodeN)而形成的组合中加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN)。[0029] 所述的多层次分类方法,其中,该回归分析法包括一顺向选择法使用的partial F-test。

[0030] 本发明提供的用以分类多个影像样本的计算机可纪录媒体,以建立一多层次分类方法对该些影像样本进行分类,该计算机可纪录媒体包括有一处理器、一输入装置、及一储存装置,该多层次分类方法至少包括下列步骤:[0031] (a)接收复数个原始样本;[0032] (b)提供复数个属性,并以一多变量参数对该些原始样本由该些属性进行显著性评估计算;

[0033] (c)选择至少一切点并建立一判别分析模型,将该步骤(b)中评估后具有显著性者其中之一,提供一变量同质分析参数筛选出该至少一切点,将该些属性评估后具有显著性者中所包含的该复数个原始样本分群为至少一类别以建立该判别分析模型,其中该至少一类别包括有第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN);[0034] (d)进行一评估模型效能的步骤,将该判别分析模型中加入该些属性进行显著性评估;其中,当加入该些属性后有增进该判别分析模型的显著性时,便进入该判别分析模型的下一层,再以该变量同质分析参数筛选出至少一切点,将该判别分析模型中加入该些属性评估后具有显著性者中所包含的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN);以及[0035] (e)加入一停止条件,该停止条件是以选择该变量同质分析参数,若不拒绝虚无假设,该判别分析模型即停止往下一层分群;或在该评估模型效能的步骤中加入该些属性以一回归分析法进行显著性评估,当加入该些属性后无法提升该判别分析模型的显著性时,若拒绝虚无假设,该判别分析模型即停止往下一层分群。[0036] 所述的计算机可纪录媒体,其中,在加入该停止条件时,该判别分析模型的最后一层分类层中,该未决定的第三类别(NodeN)中所包含的样本数为零。[0037] 所述的计算机可纪录媒体,其中,该多变量参数为Wilk’s lambda或Gini index。[0038] 所述的计算机可纪录媒体,该显著性评估计算是以一F统计量算出的p值,以该p值表示该些属性在该类别间平均的差异显著性;或以一衡量不纯度(impurity)的准则判断;

7

CN 102135981 ACN 102135986 A[0039] [0040] [0041] [0042]

说 明 书

4/16页

其中,该F统计量为

该不纯度(impurity)为

其中,n为样本空间(sample size),p为属性的数目,Λ则为Wilk’s lambda;[0044] 其中,NL为第一类别的样本空间,NM为第三类别的样本空间,NR为第二类别的样本空间,tL为第一类别的Gini值,tM为第三类别的Gini值,tR为第二类别的Gini值。[0045] 所述的计算机可纪录媒体,其中,该些属性是至少一选自由ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3及MI2所组成的群组。

[0046] 所述的计算机可纪录媒体,其中,该变量同质分析参数为Gini index、Mahalanobis distance或Youden’s Index。

[0043]

所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:在与步骤(c)所建立的该判别分析模型同层中加入该些属性,以增加该判别分析模型的原同层中的区别能力。

[0048] 所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:在该第三类别(NodeN)上加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN)。[0049] 所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:将第一类别(NodeA)设定为未决定的类别,并将第一类别(NodeA)加上未决定的第三类别(NodeN)而形成的组合中加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN)。[0050] 所述的计算机可纪录媒体,其中,该评估模型效能的步骤包括:将第二类别(NodeB)设定为未决定的类别,并将第二类别(NodeB)加上未决定的第三类别(NodeN)而形成的组合中加入该些属性并新增一层以建立一模型,该模型亦以该变量同质分析参数筛选出至少一切点,将剩余未决定的该复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN)。[0051] 所述的计算机可纪录媒体,其中,该回归分析法包括一顺向选择法使用的partial F-test。

[0052] 本发明以上述的方法以建立一种新的多层判别分析模型,其每一层可能只能区别一个类别(NodeA或NodeB)或是两个类别皆可以区别(NodeA及NodeB),并将尚未决定类别(NodeN)的样本留至下一层做判别。而此判别模型分析并包括:在判别模型分析每层发展有效变量的选择和寻找切点的方法与准则,并以评估模型效能的步骤在加入新属性时会考虑整体效能来决定要如何建构模型,并建立停止条件以避免过度配适的问题。

[0047]

8

CN 102135981 ACN 102135986 A[0053]

说 明 书

5/16页

因此,根据本发明亦提供一种属性选择和切点决定方法,并考虑了判别分析模型在加入新属性时会考虑整体模型的效能,以决定判别分析模型应如何建立及其停止条件,故而大幅提高分类的准确性。附图说明

[0054] [0055] [0056] [0057] [0058] [0059] [0060] [0061] [0062] [0063] [0064] [0065] [0066] [0067]

图1a是本发明多层判别分析流程图。

图1b是根据本发明的方法所建立的多层判别分析模型架构示意图。图2是显示一计算机可纪录媒体的架构的示意图。

图3是本发明一较佳实施例的搜寻Gini index切点示意图。

图4a-4b是本发明一较佳实施例的使用Gini index修正马氏距离示意图。图5是本发明一比较模型的四种方式示意图。图6是本发明多层判别分析模型详细流程图。图7a-7d是本发明实施例1示意图。图8a-8c是本发明实施例2示意图。图9a-9d是本发明实施例3示意图。图10a-10c是本发明实施例4示意图。图11a-11d是本发明实施例5示意图。附图中主要组件符号说明:计算机可纪录媒体1;内存11;处理器12;显示装置13;输入装置14;储存装置

15。

具体实施方式

[0068] 本发明提供的多层次分类方法,由多层判别分析模型,在每一层会寻找一或两个切点来对一或两个类别做出分类,且每一层可以同时使用多个属性,并通过费雪判别分析来找到这些属性的最佳线性组合。

[0069] 本发明提供的多层次分类方法,于一计算机可纪录媒体中用以分类多个影像样本,此计算机可纪录媒体包括有一处理器、一输入装置、及一储存装置,此方法至少包括:[0070] (a)接收复数个原始样本;[0071] (b)提供复数个属性,并以一多变量参数对此些原始样本由此些属性进行显著性评估计算;

(c)选择至少一切点并建立一判别分析模型,将步骤(b)中评估后具有显著性者

其中之一,提供一变量同质分析参数筛选出此至少一切点,将此些属性评估后具有显著性者中所包含的此复数个原始样本分群为至少一类别以建立此判别分析模型,其中此至少一类别包括有第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN);[0073] (d)进行一评估模型效能的步骤,将此判别分析模型中加入此些属性进行显著性评估;其中,当加入此些属性后有增进此判别分析模型的显著性时,便进入此判别分析模型的下一层,再以此变量同质分析参数筛选出至少一切点,将此判别分析模型中加入此些属性评估后具有显著性者中所包含的此复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)及未决定的第三类别(NodeN);以及

[0072]

9

CN 102135981 ACN 102135986 A[0074]

说 明 书

6/16页

(e)加入一停止条件,此停止条件是以选择此变量同质分析参数,若不拒绝虚无假设,此判别分析模型即停止往下一层分群;或在此评估模型效能的步骤中加入此些属性以一回归分析法进行显著性评估,当加入此些属性后无法提升此判别分析模型的显著性时,若拒绝虚无假设,此判别分析模型即停止往下一层分群。

[0075] 本发明提供的用以分类多个影像样本的计算机可纪录媒体,以建立一多层次分类方法对此些影像样本进行分类。

[0076] 根据本发明多层次分类方法,其中,在加入此停止条件时,此判别分析模型的最后一层分类层中,此未决定的第三类别(NodeN)中所包含的样本数为零,换句话说,根据本发明多层次分类方法最终结果必须将复数个原始样本皆分类为第一类别(NodeA)及/或第二类别(NodeB)中。

[0077] 根据本发明多层次分类方法,其中,多变量参数的选择没有限制,较佳为Wilk’s lambda或Gini index;此些属性的选择没有限制,较佳为至少一选自由ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3、及MI2所组成的群组。此外,变量同质分析参数的选择没有限制,较佳为Gini index、Mahalanobis distance、或Youden’s Index。另一方面,对于显著性评估计算是以一F统计量算出的p值(p-value),以此p值表示此些属性在此类别间平均的差异显著性;或以一衡量不纯度(impurity)的准则判断;[0079] 其中,此F统计量为

[0078] [0080] [0081] [0082]

此不纯度(impurity)为

其中,n为样本空间(sample size),p为属性的数目,Λ则为Wilk’s lambda;[0084] 其中,NL为第一类别的样本空间,NM为第三类别的样本空间,NR为第二类别的样本空间,tL为第一类别的Gini值,tM为第三类别的Gini值,tR为第二类别的Gini值。[0085] 根据本发明多层次分类方法,其中,此评估模型效能的步骤可包括下列四种方法:

[0083]

在与步骤(c)所建立的此判别分析模型同层中加入此些属性,以增加此判别分析

模型的原同层中的区别能力;

[0087] 在此第三类别(NodeN)上加入此些属性并新增一层以建立一模型,此模型亦以此变量同质分析参数筛选出至少一切点,将剩余未决定的此复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)、及未决定的第三类别(NodeN);[0088] 将第一类别(NodeA)设定为未决定的类别,并将第一类别(NodeA)加上未决定的第三类别(NodeN)而形成的组合中加入此些属性并新增一层以建立一模型,此模型亦以此变量同质分析参数筛选出至少一切点,将剩余未决定的此复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)、及未决定的第三类别(NodeN);[0089] 或将第二类别(NodeB)设定为未决定的类别,并将第二类别(NodeB)加上未决定的

[0086]

10

CN 102135981 ACN 102135986 A

说 明 书

7/16页

第三类别(NodeN)而形成的组合中加入此些属性并新增一层以建立一模型,此模型亦以此变量同质分析参数筛选出至少一切点,将剩余未决定的此复数个原始样本继续分群为第一类别(NodeA)、第二类别(NodeB)、及未决定的第三类别(NodeN)。[0090] 由上可知,本发明提供了一种新的判别分析模型结构及其方法,其类似于树状分类结构,都是由上往下一层一层将数据分割。而与树状结构不同的是,此判别分析模型每一层会将一些数据针对一或二个类别做出分类,并将未决定的数据留至下一层,此外,每一层可选择些属性并利用费雪判别分析做线性组合。[0091] 换言之,本发明以上述方法以建立一种新的多层判别分析模型,其每一层可能只能区别一个类别(NodeA或NodeB)或是两个类别皆可以区别(NodeA及NodeB),并将尚未决定类别(NodeN)的样本留至下一层做判别。而此判别模型分析并包括:在判别模型分析每层发展有效变量的选择和寻找切点的方法与准则,并以评估模型效能的步骤在加入新属性时会考虑整体效能来决定要如何建构模型,并建立停止条件以避免过度配适的问题。[0092] 因此,根据本发明亦提供一种属性选择和切点决定方法,并考虑了判别分析模型在加入新属性时会考虑整体模型的效能,以决定判别分析模型应如何建立及其停止条件,故而大幅提高分类的准确性。

以下结合附图对本发明作进一步详细描述。

[0094] 图2显示一计算机可纪录媒体的架构的示意图,其可用以执行本发明多层判别分析模型的多层次分类方法。[0095] 如图2所示,计算机可纪录媒体1包含显示装置13、处理器12、内存11、输入装置14、及储存装置15等。其中,输入装置14可用以输入影像、文字、指令等数据至计算机可纪录媒体,储存装置15例如为硬盘、光驱或由因特网连接的远程数据库,用以储存系统程序、应用程序及使用者数据等,内存11用以暂存数据或执行的程序,处理器12用以运算及处理数据等,显示装置13则用以显示输出的数据。

[0096] 如图2所示的计算机可纪录媒体一般是于系统程序(Operating System)下执行各种应用程序,例如文书处理程序、绘图程序、科学运算程序、浏览程序、电子邮件程序等。在本实施例中,储存装置14是储存有使计算机可纪录媒体执行一多层次分类方法的程序。当欲使计算机可纪录媒体执行此分类方法时,对应的程序便被加载内存11,以配合处理器12执行此方法。最后,再将分类结果的相关数据显示于显示装置13或由因特网储存于一远程数据库中。

[0097] 由本发明的方法,其流程示意可如图1a所示,根据其所建立的多层判别分析模型架构如图1b,其与分类树相似的为都是由上而下不断的分割数据。然而,跟分类树不同的是,本发明的多层次分类方法会针对每一层都会对部分或全部的复数个原始样本做出判别,而这些已判别出来的类别(NodeA)或NodeB)就不会进入下一层的模型,只留下在此层做出判别为尚未决定类别(NodeN)到下一层中加入新的属性来对它作出判别,而每一层可以只针对判断一个类别或是两个类别,若是只判断一个类别则只需要找一个切点来把样本切割成两部分,一部分为能在此层分类出来的,另一部分为未决定必须留到下一层,但若是要判断两个类别则需寻找两个切点,把数据切割成三部分,一部分为第一类别(NodeA),一部

[0093]

分为第二类别(NodeB),剩下的那一部分则是未决定的第三类别(NodeN)。而每次要加入一个新的属性时,会考虑整体模型的效能来决定要在原有的层内结合新的属性让原本那一层

11

CN 102135981 ACN 102135986 A

说 明 书

8/16页

的判断力更佳或是要加一个新的属性来对那些尚未分类出来的样本进行分类。不断的在此模型中加入新的属性直到此模型达到停止条件。[0098] 以下,将详述本发明的多层次分类方法及所建立的多层判别分析模型架构。[0099] 首先,接受复数个原始样本,针对此些复数个原始样本,必须先由复数个属性中选择一属性,并以一多变量参数对此些原始样本由此些属性进行显著性评估计算。此显著性的评估提供一变量同质分析参数筛选出至少一切点,将此些属性评估后具有显著性者,再以此切点来决定模型里的样本是此分到哪个类别(NodeA、NodeB、或NodeN)或是要留到下一层,较佳的选择为评估后最具显著性者。由此可知,选择属性及决定此些切点是非常重要。之后,需对前述建立的判别分析模型进行评估模型效能的步骤,亦即由在模型中多加进些个属性后进行比较两种模型,其包括可以一种为在原有的判别分析模型里加一个属性并使用费雪线性判别分析(Fisherlinear discriminant Analysis,以下简称FLD)结合,另一种为新增加一层模型。

[0100] [属性及多变量参数选择][0101] 在属性的选择上,可使用ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3、及MI2;而多变量参数的选择有两种准则可以使用。一种是常见于多变量统计方法上检定类别间的平均是否有差异的Wilk’s lambda,另一种则是在分类树上评估不纯度(impurity)的Gini index。

Wilk’s lambda

[0103] 假设有g个类别,p个属性,且xk~Np(μk,∑),k=1,2,…,g

[0102] [0104]

其中,H0是虚无假设(null hypothesis),H1是对立假设(alternative hypothesis),μk则为层级(class)K的平均值。[0106] Wilk′s lambda:

[0105] [0107] [0108] [0109] [0110] [0111] [0112] [0113] [0114]

(式1)

其中,W为组内变异矩阵B为组间变异矩阵

I是单位矩阵(identity matrix)λi为W-1B的特征值在H0为真下,Λ经过某些转换后会服从F分配(式2)test statistic

[0115] [0116] [0117]

m1=p(g-1),

(式2)

当p≥1,g=2时,s=1,m1=p,m2=n-p-1,统计量F可简化成

12

CN 102135981 ACN 102135986 A[0118]

说 明 书

9/16页

Wilk’s lambda也可转换成卡方分配

2

[0120] Bartlett′s χ statistic[0121] test statistic

[0119] [0122] [0123]

(式3)

当类别少的时候,F统计量会比卡方统计量好。由于多层判别分析较佳为针对2个

类别分析,所以本发明选用F统计量。

[0124] 本发明可以比较每个属性用前述F统计量算出的p值(p-value),p值越小代表这个属性在类别间平均的差异越显著,比较每个属性的p值即可选出一个最显著的属性。若是要同一层中选进新的属性,则比较新属性跟原有的属性组合后得到的p值,选出跟原有属性组合p值最小的变量即可。[0125] Gini Index

[0126] 由于每次在进行分割时要搜寻一个较佳或最佳的属性及切点,所以要有一个分割的准则来评估此属性与切点的效能,其中较常见的准则为Gini index。Gini index是一种在衡量不纯度(impurity)的准则,所以Gini index越小越好。每个属性配上一个对应的切点就能得到其Gini index,所以每个属性可以搜寻一个最佳的对应切点。在进行变量选择时,只要比较每个属性搭配上其对应的最佳切点后的Gini index即可选出在此分割最佳的属性及切点。

[0127] 假设现在有g个类别,Gini Index的定义为:

[0128] [0129] [0130]

(式4)

不纯度(impurity)即为:

其中,

[0132] P(i|t)为类别i在结点t所占的比例[0133] P(j|t)为类别j在结点t所占的比例[0134] nL为左边结点的样本数[0135] nR为右边结点的样本数[0136] N=nR+nL为所有样本总合[0137] 在此处,本发明的多层判别分析模型跟分类树不同的地方在于,分类树在每一个结点是做二元分割,但在本发明的多层判别分析模型中,每一层都必须把数据分割成二结点,所以不纯度(impurity)的计算要改为

[0131] [0138] [0139]

(式5)

本发明可以比较每个属性搭配其最佳的一组切点之后得到的不纯度,选出不纯度最小的一个属性。

13

CN 102135981 ACN 102135986 A[0140]

说 明 书

10/16页

若是要在同一层加入新的属性,可以利用新的属性跟原有的属性通过FLD组合后得到的区别分数来计算不纯度,找出跟原有的属性组合之后不纯度最低的属性即可。[0141] [切点选择]

[0142] 切点的选择有三种方法,分别为Gini index、马氏距离(Mahalanobis distance)、或Youden’s Index。

[0143]

Gini Index

[0144] 在使用Gini index选择属性时,每个属性都要选择一组切点来搭配才能得到其不纯度,所以需要一个方法选择一组最好的切点来搭配,以得到最低的不纯度,若是在分类树里,只需寻找一个切点,所以在分类树里寻找切点的方法为把所有可能的切点都试过一次,找出一个不纯度最低的切点。然而,在本发明多层判别分析模型中,例如需要得到两个切点来把数据分成三群,在此情形时假设会存在有N个样本,寻找一个切点只需要试验N种可能,若要找两个切点则会有N(N-1)/2种可能,在样本数很大时,若要以试过所有可能的切点来找两个切点会非常慢,所以本发明为解决前述问题,并发展一个快速搜寻出两个切点的方法。

[0145] 首先,像一般的分类树一样,先搜寻所有可能找一个把所有数据分成两群后不纯度最低的切点,C0,然后利用C0可以把数据切成NodeL和NodeR。在NodeL里,再搜寻一个可以把NodeL分成两群后不纯度最低的切点,C1。同样的,在NodeR中也搜寻一个可以把NodeR分成两群后不纯度最低的切点,C2,如图3所示。[0146] 如此一来可得到三个候选切点C0,C1,与C2,用这三个候选切点可以组成(C0,C1),(C1,C2)与(C0,C2)三种切点组合,比较这三种切点组合把数据切成三群后的不纯度,选出一个最佳的切点组合即可,较佳为把同构型高的样本放在左右两侧。因此,在搜寻C1时会设下限制,用C1切出来的两群数据里,比较远离C0的那群资料不纯度要比另一群资料高。基于同前理由,在搜寻C2时也要设下一样的限制。也就是说,Gini(tLL)<Gini(tLR),Gini(tRR)<Gini(tRL)。若以此搜寻算法,只需搜寻大约2N次来寻找那三个候选切点,再比较三种组合即可。

[0147] 马氏距离(Mahalanobis distance)

[0148] 根据本发明的另一个切点选择的方法为马氏距离,其与欧氏距离(Euclidean distance)的差别在于马氏距离考虑的不只是类别间中心点差异,还会考虑各个类别的散布情形,举例来说,若有一个样本距离A类别跟B类别的中心都一样远,若A类别的变异数比较大,散布情形的比较分散,B类别的变异数比较小,散布情形很集中,那此样本离A类别的马氏距离就会比离B类别的马氏距离来的小,故因此而认为其比较属于A类别。

[0149]

以下将详细介绍利用马氏距离应用于分类上的方法,首先,假设现在有2个类别,则可以算出距离A类别的马氏距离为:

而距离B类别的马氏距离为:

其中μA=(μA1,μA2,…μAp)为A类别的平均数,

[0150] [0151]

SA为A类别的共变异数矩阵(covariance matrix),μB=(μB1,μB2,…μBp)为B类别的

平均数,SB为B类别的共变异数矩阵;当DA(x)<DB(x)则属于A类别,而DA(x)>DB(x)则属于B类别。

14

CN 102135981 ACN 102135986 A[0152]

说 明 书

11/16页

但在本发明的多层判别分析模型中,本发明将复数个样本分成A,B两类别(NodeA、NodeB)与未决定(NodeN)这三群,故将原本DA(x)<DB(x),属于A类别的样本数挑出来,然后利用这些原本已经判断为A类别的样本算一个新的μA1,μB1,SA1,SB1,接着把这些已判断为A类别的样本用新的平均数和变异数再计算一次马氏距离:

[0153]

若DA1(x)<DB1(x),则属于A类别;而DA1(x)>DB1(x),则属于未决定。

[0155] 同样的,把原本DA(x)>DB(x),属于B类别的样本数挑出来,然后利用这些原本已经判断为B类别的样本算一个新的μA2,μB2,SA2,SB2,然后把这些已判断为B类别的样本用新的平均数和变异数再计算一次马氏距离,

[0154] [0156]

若DA2(x)>DB2(x),则属于B类别,而DA2(x)<DB2(x),则属于未决定。

[0158] 另须注意的是,在本发明多层判别分析模型中若使用马氏距离找切点时,主要是为了把数据用分成比较属于A类别的和比较属于B类别的,再利用这两个数据子集合来求出本发明要的切点,但当此两笔数据子集合为如图4a的情形时,由于其结点的选择会影响非分类的准确度,为了要改善此情形中样本数差距极大造成马氏距离切点的不可靠,可进一步利用Gini index来修正马氏距离,如图4b所示。首先,先用Gini index找一个切点,然后把数据用此切点分成两边,比较各个类别在这两边所占的比例,若是A类别在左边所占的比例大于右边所占的比例,则把右边数据的A类别移除,反之则把左边数据的A类别移除。同样的,B类别也比较其在左右两边所占的比例,移除掉比例比较小那边的B类别。然后用剩余的A类别、B类别来重新计算平均及变异数,即可得到一个经过Gini index修正

[0157]

后的马氏距离。[0159] Youden’s Index[0160] 首先,定义Younde’s Index=specificity+sensitivity-1,其中specificity为在所提供的复数个原始样本中所有A类别样本里判断正确的比例,sensitivity为在所提供的复数个原始样本中所有B类别样本里判断正确的比例,故Youden’s index越高越好。[0161] 搜寻切点的方法跟使用Gini index相似,先搜寻所有可能找一个把所有数据分成两群后Younde’s Index最高的切点,C0,然后利用C0可以把数据切成NodeL和NodeR。在NodeL里,再搜寻一个可以把NodeL分成两群后Younde’s Index最高的切点,C1。同样的,

s Index最高的切点,C2。如此一在NodeR中也搜寻一个可以把NodeR分成两群后Younde’

来,可以得到三个候选切点C0,C1,与C2,用这三个候选切点可以组成(C0,C1),(C1,C2)与(C0,C2)三种切点组合,比较这三种切点组合把数据切成三群后的Youden’s Index,选出一个最佳的切点组合即可。[0162] 分成三群时,由于有未决定的部分,故specificity和sensitivity的计算要做更改。

[0163] Specificity=(A类别判对样本数+0.5*未判别属A类别样本数)/A类别总样本数;以及

[0164] Sensitivity=(B类别判对样本数+0.5*未判别属B类别样本数)/B类别总样本数;

15

CN 102135981 ACN 102135986 A[0165]

说 明 书

12/16页

其后,再选取这三组切点中Youden’s index最高的一组切点即可。[0166] [评估模型效能]

[0167] 在多层判别分析模型中,每次要加一个属性进模型里时,可以下列四种不同方案进行评估的步骤。[0168] 首先,如图5所示,假设已有一层由X1构成的模型,并利用X1把样本分成三群,分别为A类别,B类别,以及未决定的样本,分别以NodeA,NodeB,NodeN来表示。[0169] 方案1:

[0170] 在原有的那一层新加入属性Xi,跟X1利用FLD组合,以增加原有那一层的区别能力。

[0171] 方案2:

[0172] 在NodeN上加入属性Xj建一个模型,利用此模型来区别在原有的层里区别不出来的样本。

[0173] 方案3:

[0174] 把NodeA跟NodeN的样本合并,以NodeAN表示,此时原有的那层X1构成的模型只拿来区分出B类别,在NodeAN上加入属性Xk建一个模型,利用此模型来区别在原有的层里区别不出来的样本。

方案4:

[0176] 把NodeB跟NodeN的样本合并,以NodeBN表示,此时原有的那层X1构成的模型只拿来区分出A类别,在NodeBN上加入属性Xp建一个模型,利用此模型来区别在原有的层里区别不出来的样本。[0177] [停止条件]

[0178] 在本发明多层判别分析模型的停止条件上可分为两种,一为决定是否要把未决定的样本继续往下分割,另一为决定要不要在已存在的层里加入新属性。[0179] 在决定是否要继续把未决定的样本继续往下分割的判别,可利用在属性选择时提到的Wilk’s lambda,若不拒绝虚无假设,代表在剩余的样本里,找不到能把类别间显著区分开来的属性,所以就停止继续往下分割。[0180] 如前所述,另一停止条件为决定是否在原有的层里加入新属性,由于模型原本已存在一些显著的属性,若要在加入新属性时,此时需考虑的不是加入新属性后整体模型够不够显著,而是考虑新加入的属性额外解释了多少变异。在此,可以参考回归分析法中的顺向选择法(forward selection)使用的partial F-test,其做法为检定新加入一个属性的模型跟原始模型有没有显著差异。若拒绝了虚无假设,表示加入新属性的模型无显著改善,不将此属性加入模型。其检定模型如(式6)

[0175] [0181]

[0182] (式6)

其中,

[0184] dfF为full model的自由度;[0185] dfR为reduce model的自由度;

[0183]

16

CN 102135981 ACN 102135986 A[0186] [0187] [0188] [0189] [0190] [0191]

说 明 书

13/16页

dfRβ0,β1,β2为变数的参数;

dfRSSR为次方的解释平均(explained sum of square);以及dfRSSE为次方的剩余总和(e residual sum of square)。而在判别分析的顺向选择法,其模型如(式7)若拒绝虚无假设,则表示模型不需加入此新属性。

[0192] [0193]

(式7)

若加入的新属性够显著,还要用评估模型效能的方法比较加入前和加入后整体模

型的效能。反之,若加入新的属性后无法提升整体模型的效能的话,就停止加入新属性。需注意的是,本发明的多层次分类方法及所建立的多层判别分析模型架构,在模型的最后一层要强迫对所有数据进行分类,不能再留下未决定的样本。[0194] 根据前述参数及设定条件,根据本发明的方法建立多层判别分析模型详细流程图如图6所示。

首先,在接受复数个原始样本后(图未示),利用Wilk’s lambda或是Gini index

选进一个最显著的属性,然后检定这个属性是否有显著区别出各个类别的能力。若是拒绝了虚无假设,则代表此属性具有解释能力。再利用如前述的马氏距离或Gini index来找出此属性最好的一组切点,把数据分成第一类别(A类别,NodeA),第二类别(B类别,NodeB)跟未决定的第三类别(NodeN)三群数据,然后就可以根据这三群数据来评估这个模型的效能。[0196] 接着,在选进第二个属性时,要考虑把第二个属性加在哪个地方,在前述所提到四个方案,分别为:(方案1)在原有的那层,找一个跟原有变量组合后最好的属性与切点;(方案2)用原本未决定那群样本找一个最适合的的属性与切点;(方案3)把A类别当成未决定,用A类别加上未决定的样本来寻找一个最适合的属性与切点;以及(方案4)把B类别当成未决定,用B类别加上未决定的样本来寻找一个最适合的属性与切点。[0197] 每个方案选进属性之后都要用Wilk’s lambda检定其显著性,认为不够显著的方案就舍弃此属性,然后用前述提到评估模型效能等步骤来评估每个方案整体模型的效能。若方案1的效能最好,则把新的属性加在原有的层里。若方案2的效能最好,则利用上一层剩下的未决定样本建立新的一层模型。若为方案3或方案4最好,则是在上一层把A类别或B类别当成未决定,并用所有剩下的未决定样本建立新的一层模型,且上一层的模型转换成只切一个切点来判断A类别或B类别,不在同一层判断两个类别。[0198] 若目前的模型已经有n层,要再加入一个新属性时,把新属性加在原有的层里此方案会有n种情形,再加上方案2、3、4,共要考虑n+3种情形。若此n+3种情形新增变量都不显著,模型就停止。若有通过的方案,则选出效能最佳的方案,检查此方案多选进一个属性后的整体模型校能有没有改善。若无改善,则停止加入新变数,若有改善,则继续加新的属性到模型里,一直不断加入变量直到模型效能不再改善为止。[0199] 综合上述,本发明针对多层判别分析的模型提供了一个有系统的变量选择方法,可以用Wilk’s lambda转换成F分配后的p值或Gini index来选择变量。而在切点的决

[0195]

17

CN 102135981 ACN 102135986 A

说 明 书

14/16页

定上,也提供了马氏距离、Gini index等方法。用Gini index决定切点时,由于必须寻找至少一切点,若是搜寻所有可能的切点组合会非常耗时,故本发明亦提供了较快速搜寻到所欲的切点的方法。而用马氏距离决定此至少一切点时,由于本发明会先用马氏距离把所有样本分成偏向A类别及偏向B类别的,再用此两群样本来找两个马氏距离切点,但由于先用马氏距离把数据分成两群,这两群内类别间的样本数差距通常很大,而此类别间的样本数差距会造成马氏距离寻找切点的不可靠,故本发明并提供了使用Gini index修正马氏距离来解决此问题。在每次新加入属性到模型里时,不仅只考虑一层的效能,而是在考虑整体模型的效能后,才决定要把新的属性加入哪里。而在模型的停止条件上,也提供了使用如Wilk’s lambda来防止模型的过度配适,故而大幅提高分类的准确性。[0200] [实施例1]

[0201] 在本实施例中提供了一笔样本数为100,2个类别,5个属性(X1,X2,…,X5)的数据,其中每个属性皆服从N(0,1),其类别散布图如图7b所示,而其预设的模型如图7a所示。其中,第一层将用X1来解释,其无法分类的部分再留到下一层给X2去解释。[0202] 经由多层判别分析得到的结果如图7c所示,由于多层判别分析模型有用Gini index及马氏距离两种寻找切点的方法,故在多层判别分析的结果呈现上会把此两种方法都放上。至于经由CART得到的结果,则如图7d所示。可以比较使用Gini index找切点的多层判别分析跟CART,两者寻找切点的准则一样。[0203] 在多层判别分析中,第一层用X1分出了类别0和类别1,类别0包含了24个类别0和0个类别1,类别1包含了3个类别0和35个类别1。然而,如图7d所示,而在CART里则是在第一层用X1分出类别1,包含了3个类别0和35个类别1,第二层再用X2分出类别1,包含了24个类别0和0个类别1,所以两种方法所分类出的结果都一样。但是,多层判别分析的结构会在一层里把此属性判别两个类别(类别0及类别1)的能力都用上,但在CART里只能在一层里先判别一个类别,在下一层再使用同一个属性判别另一个类别。各个方法的结果呈现在表1中,从表1中可看出,多层判别分析使用Gini index所得到的结果跟CART一样好。[0204] 表1

[0205]

[实施例2]

[0207] 在本实施例中提供了一笔样本数为200,2个类别,10个属性(X1,X2,…,X10)的数据,其中每个属性皆服从N(0,1)。预设的模型如图8a所示。其中,第一层将选进X1,X2组合成一个FLD模型,那些第一层无法做出分类的,则留到第二层中由X3,X4组合的FLD模型来解释。

[0208] 经由多层判别分析得到的结果如图8b所示,CART得到的结果则如图8c所示。

[0206]

18

CN 102135981 ACN 102135986 A[0209]

说 明 书

15/16页

根据本实施例方法的结果呈现在表2中,此多层判别分析不管是用Gini index或马氏距离来找切点得到的准确率,都比CART和FLD好。[0210] 表2

[0211]

[实施例3]

[0213] 在本实施例中提供了一笔样本数为1000,2个类别,5个属性(X1,X2,…,X5)的数据,其中每个属性皆服从N(0,1),其类别散布图如图9b所示,预设的模型如图9a所示。第一层将用X1来解释,且X1只有分类出类别0的能力,其余无法分类的部分再留到下一层给X2去解释。

[0214] 经由多层判别分析得到的结果如图9c所示,CART得到的结果则如图9d所示。由于预设的模型可以视为单变量的树状结构,故在此案例多层判别分析使用Gini index当切点准则的结果会跟CART得到的结果一样。

[0215] 根据本实施例方法的结果呈现在表3中,多层判别分析使用Gini index所得到的结果跟CART一样好。[0216] 表3

[0212]

[0217]

[实施例4]

[0219] 在本实施例中提供了一笔样本数为1000,2个类别,5个属性(X1,X2,…,X5)的数据,其中每个属性皆服从N(0,1)。预设的模型如图10a所示。第一层将用X1来解释,且X1只有分类出类别0的能力,其余无法分类的部分再留到下一层给X2和X3去解释。[0220] 经由多层判别分析得到的结果如图10b所示,CART得到的结果则如图10c所示。[0221] 根据本实施例方法的结果呈现在表4中,多层判别分析使用Gini index所得到的结果最好。

[0218] [0222]

表4

[0223]

[实施例5]

[0225] 在本实施例中提供了通过超音波扫描来得到一些肿瘤影像的量化的属性,再通过这些属性来建构一个判别模型,其中肿瘤影像样本有160个,有108个以类别0代表,52个

[0224]

19

CN 102135981 ACN 102135986 A

说 明 书

16/16页

以类别1代表。

[0226]

首先提供CI、、MI、HI、ringPDVImax这5个属性做分析,若直接使用费雪判别分

析合并这5个属性,得到的准确率为0.793,使用多层判别分析的结果准确率则为0.8。此外,多层判别分析只会使用其中四个变量,如图11a所示,且得到的准确率比传统的费雪判别分析高。

除上述5个属性之外,根据本实施例可再加入其它属性一起分析。多层判别分析

使用Gini index决定切点得到的结果如图11b所示,准确率为0.906。多层判别分析使用Youden’s index决定切点得到的结果则如图11c所示,准确率为0.8012。CART所得到的结果如图11d所示,准确率为0.868。FLD使用了ringPDVImax、VeinCentralVImin、VeinTDCentralVImax、TDVImax、CI、RMV、CI2、MCI3、MI2这9个属性,得到的准确率为0.843。如表5所示,多层判别分析得到的准确率最好。[0228] 表5

[0227]

[0229]

再者,本发明上述执行步骤,可以计算机语言写成以便执行,而此写成的软件程

序可以储存于任何微处理单元可以辨识、解读的纪录媒体,或包含有此纪录媒体的物品及装置。其不限为任何形式,此物品可为硬盘、软盘、光盘、ZIP、MO、IC芯片、随机存取内存(RAM),或任何熟悉此项技艺者所可使用的包含有此纪录媒体的物品。由于本发明的多层次分类方法已揭示完整如前,任何熟悉计算机语言者阅读本发明说明书即知如何撰写软件程序,故有关软件程序细节部分不在此赘述。

[0231] 上述实施例仅是为了方便说明而举例而已,本发明所主张的权利范围自应以申请的权利要求范围所述为准,而非仅限于上述实施例。

[0230]

20

CN 102135981 ACN 102135986 A

说 明 书 附 图

1/17页

图1a

21

CN 102135981 ACN 102135986 A

说 明 书 附 图

2/17页

图1b

22

CN 102135981 ACN 102135986 A

说 明 书 附 图

3/17页

图2

图3

23

CN 102135981 ACN 102135986 A

说 明 书 附 图

4/17页

图4a

24

CN 102135981 ACN 102135986 A

说 明 书 附 图

图4b

25

5/17页

CN 102135981 ACN 102135986 A

说 明 书 附 图

6/17页

图5

26

CN 102135981 ACN 102135986 A

说 明 书 附 图

7/17页

图6

27

CN 102135981 ACN 102135986 A

说 明 书 附 图

8/17页

图7a

图7b

28

CN 102135981 ACN 102135986 A

说 明 书 附 图

9/17页

图7c

图7d

29

CN 102135981 ACN 102135986 A

说 明 书 附 图

10/17页

图8a

图8b

30

CN 102135981 ACN 102135986 A

说 明 书 附 图

11/17页

图8c

图9a

31

CN 102135981 ACN 102135986 A

说 明 书 附 图

12/17页

图9b

图9c

32

CN 102135981 ACN 102135986 A

说 明 书 附 图

13/17页

图10a

图9d

图10b

33

CN 102135981 ACN 102135986 A

说 明 书 附 图

14/17页

图10c

34

CN 102135981 ACN 102135986 A

说 明 书 附 图

15/17页

图11a

35

CN 102135981 ACN 102135986 A

说 明 书 附 图

16/17页

图11b

36

CN 102135981 ACN 102135986 A

说 明 书 附 图

17/17页

图11c

图11d

37

因篇幅问题不能全部显示,请点此查看更多更全内容