您的当前位置:首页正文

基于视觉的人的运动识别综述

2022-04-15 来源:好走旅游网
 

第1期2007年1月

电  子  学  报

ACTAELECTRONICASINICAVol.35 No.1

 

Jan. 2007

基于视觉的人的运动识别综述

杜友田,陈 峰,徐文立,李永彬

(清华大学自动化系,北京100084)

  摘 要: 目前,基于视觉的人的运动分析是一个非常活跃的研究领域,而对人的运动进行理解和识别更是该领

域内一个富有挑战性的研究方向,它在智能监控、感知接口和基于内容的视频检索等领域具有广泛的应用前景.本文对人的运动识别领域近年来的发展作了比较详细的论述,从人运动的类别、运动表示方法和运动识别方法三个方面分析了该方向的进展情况,并对当前该研究方向上亟待解决的问题做了比较详细的分析.

关键词: 计算机视觉;智能监控;运动表示;运动识别中图分类号: TP391   文献标识码: A   文章编号: 037222112(2007)0120084207ASurveyontheVision2BasedHumanMotionRecognitionDUYou2tian,CHENFeng,XUWen2li,LIYong2bin

(DepartmentofAutomation,TsinghuaUniversity,Beijing100084,China)

Abstract: Vision2basedhumanmotionanalysisiscurrentlyoneofthemostactiveresearchfields,andthehumanmotionrecognitionisachallengingresearchtopicinthisfield.Humanmotionrecognitionhasmanypromisingapplicationssuchasintelligentsurveillance,perceptualinterfaceandcontent

2basedvideoretrieval.Inthispaper,theimprovementsofthistopicinthelastsev

2

2

eralyearsarediscussedindetailfromthreeaspects:thecategoryofhumanmotions,motionrepresentationmethodsandmotionrecognitionmethods.Attheendofthesurvey,somevitalproblemsofhumanmotionrecognitionarepresentedandanalyzed.

Keywords: computervision;intelligentsurveillance;motionrepresentation;motionrecognition

1 引言

  当前,基于视觉的人的运动分析是一个非常活跃的研究

领域,它针对包含人的图像序列进行运动检测[1]、目标分类、跟踪以及对人的运动进行理解和识别[2].人运动的理解和识别,属于人的运动分析的高级处理部分,近年来越来越受到人们的关注.人的运动识别,可以简单地看成一个时变数据的分类问题,包括运动的表示和运动的识别两部分.基于视觉的人的运动识别研究既包含了图像处理以及计算机视觉等知识,也涉及了模式识别以及人工智能的理论,是一个多学科交叉的研究方向.观察人的根本目的是识别和理解人的个体动作、人与人之间的以及人与外界环境之间的交互行为,并且把它们描述出来.然而,客观环境的多样性以及人运动的复杂性使得人的运动识别变得非常困难.

人的运动识别有着很广阔的应用前景,主要集中在以下三个方面:(1)智能视觉监控.智能视觉监控主要应用于一些对安全要求比较高的场合,譬如银行、超市以及车库等地方,可以实时地检测并识别外部事件尤其是人的可疑行为的发生.(2)感知接口.在高级用户接口领域中,我们希望未来的计

算机能够和人更加容易地进行交流和沟通,如能够理解人的手势以及表情等.这就要求未来的计算机能够对外部的环境进行感知并能够理解外部的事件尤其是人的行为.(3)基于内容的检索.随着多媒体数据的不断增多,视频数据尤其是大量的体育视频查找起来非常麻烦,人的运动识别可以使得在视频数据库内检索特定的事件变得非常方便.

由于人的运动识别的挑战性以及其巨大的应用价值,越来越多的学校、研究所以及公司的研究人员投入到该领域中来.麻省理工学院、卡内基梅隆大学以及其他国外著名大学成立了专门的计算机视觉及多媒体方向的实验室;Nice和Ob2jectVideo等公司已经针对飞机场、国界线等应用场合开发了一些相应的智能监控系统;国内在该领域的研究起步相对晚一些,但是一些研究单位也已经开始了这方面的研究并取得了许多成果.研究人的运动识别的文献越来越多,Moeslund和

[3]

Granum对以前的工作做了回顾和分析,主要分成四个部分对基于视觉的人体运动捕获进行了分析:初始化、目标跟踪、人的姿态估计和识别,同时对当前该领域做的假设做了比较详尽的归纳.王亮[2]等人从检测、目标分类、跟踪、理解等四个阶段对人体的运动进行了分析,该文分析了2000年以前的关

收稿日期:2006204221;修回日期:2006207221

基金项目:国家自然科学基金重点项目(No.60432030)

第 1 期杜友田:基于视觉的人的运动识别综述

研究也很有意义.

58

于人体运动分析领域的文章,但是对人体行为识别方面的分析较少.此外,Gavrila[4]也对该领域的部分文章做了阐述和分析.这些综述文章的特点是把人的运动分析的各个环节都进行了讨论,其中人运动的理解和识别部分分析得比较简单.文献[5]针对人行为的识别和理解进行了分析,但在人运动的类别分析和运动表示等方面没有对以前的文章做分析.针对一种特殊的运动———手势,文献[6]从手势建模、手势分析和手势识别三个方面对以前的研究工作进行了分析和总结.鉴于当前人的运动识别研究的不断发展和深入,对该领域的工作及进展做详细的回顾和分析显得很有必要.本文主要针对基于视觉的人的运动识别这个研究方向,从人运动的类别、运动表示方法和运动识别方法三个方面分析了近些年来国内外的研究工作及最新进展,并对当前亟需解决的问题做了详细的分析.

3 人运动的表示方法

  人的运动表示指的是从含有人运动的视频序列中抽取出能够合理表示运动的数据,这对于运动识别来说是至关重要的.运动的表示与运动的类别和应用场合有紧密的关系,对于不同的情况通常会选择不同的运动表示方法.譬如,在对一个大的场景下进行较远距离的监控时,只需要提取运动目标的轨迹就可以满足需要了,而在识别人的手势时,对人的肢体进行22D或32D建模则非常必要.衡量运动表示的优劣有四个)、)、标准:紧凑性(minimalism完备性(completeness连续性(con2)[12,13],大部分运动的表示只能满足tinuity)、唯一性(uniqueness其中部分标准.一般地,人运动的表示方法可以分为两种:基于表观的表示方法和基于人体模型的表示方法.

311 基于表观(appearance)的表示方法

2 人运动的类别

  人的运动覆盖的范围很广,包括人整个身体或部分肢体的运动,表情以及唇语等等,这些运动具有不同的特点,研究方法也不尽相同.而针对人整个身体或部分肢体运动的识别是当前研究的一个热点和难点,也是本文讨论的重点.通常来说,不同的运动具有不同的复杂程度,其表示方法和识别方法可能会不同[7].

)、Bobick[8]认为人的运动可以分为三类:动作(movement

)和行动(action),这三类运动分别处于三个不同行为(activity

复杂程度的层次上.动作是运动的基元,是最基本的运动,是形成其他复杂、高级运动的基础.一般来说动作在执行过程中会持续较短的时间,其识别方法一般可以采用几何或概率统计的方法.譬如,打网球时挥动了一下球拍,这就是一个动作.行为是指若干个连续动作的序列,时间尺度较大,明显地反映了人运动的目的性.当前大部分关于人的行为识别的方法是基于概率统计的,需要考虑其中各个动作或者运动状态之间的相互关系.一个完整的手势是一个典型的行为,它可能包含了人手的几个动作,清楚地表达了人的主观性和目的性.行动是更高层次的运动,它反映了动作在大的时间尺度上的运动以及人和人、人和环境以及和其他目标之间的相互关系.理解和识别行动的方法需要用到概率统计或者人工智能的技术,如动态贝叶斯网络和文法分析等,而且在识别时常常要考虑到运动与上下文之间的关系.譬如,多人的交互就可以归到行动中.动作、行为和行动在一些场合下也可以称作事件.也就是说,事件既可以指低级的、小尺度的动作,也可以指大尺度的、中高级的运动,包括行为和行动.尽管这三类运动复杂程度不同,但有些时候难以进行严格的区分,并且各类运动识别对应的研究方法也没有太严格的限制.故在本文后面的人运动的表示方法和识别技术分析中,我们并不将这三类运动分开讨论.

人的运动识别研究也常常按照单个人的运动、两人交互以及人群的行为来进行.目前大多数工作是针对单个人的运动进行研究的,对两人交互及人群的行为研究得比较少[9~11],但这两类运动在实际环境中都非常普遍,对其进行

基于表观的方法[14~20,22~24]不对人的物理结构进行直接建模,而是采用图像上的颜色信息或者灰度信息对人的运动进行分析.

直接利用图像的信息进行分析是一类最简单的方法,如网格特征(meshfeature).Yamato等人[15]采用二维网格特征作为人的运动特征,首先将人从图像中提取出来,并将图像二值化,然后将整幅图像分割成若干个网格,计算每个网格中人体的像素数占整个网格的像素数的比例,以此来描述人体的运动.T.Nishimura等人[20]也采用了这种网格特征来表达人体的运动.这种方法比较简单,但是精度较低.

第二类基于表观的表示方法是利用人的轮廓或者区域信息.基于人的轮廓来表示运动是一种很好的方法,能够比较精确地描述人的运动细节.Kale等人[16]采用基于人体轮廓的方法来解决步态识别问题,首先将人体的轮廓提取出来,然后求出图像中每一行的轮廓宽度,以此宽度向量作为特征向量进行识别.Veeraraghavan等人[17]采用轮廓上的标记点来分析人的运动,对于有限的标记点集合,通过Kendall形状理论[21]来对其进行分析,最后对人的步态进行了分析.基于有限的标记点的好处是对运动的表示比较精确,而且特征空间的维数较低,计算复杂度小.

第三类基于表观的表示方法是利用人的运动信息,如光[22]

流、目标轨迹[23,24]以及速度等.基于光流的方法计算量大,而且不够鲁棒.Psarrou等人[24]采用时空轨迹(spatio2temporal

)来表达人的行为,然后采用一阶马尔可夫过程对其trajectory

进行建模.

312 基于人体模型的表示方法

基于人体模型的表示方法本质上是将人体及其姿态参数化,通过分析这些参数化的人体模型来识别人的运动,这种表示方法通常用来表示比较精细的运动,如手势等.和基于表观的方法相比,该表示方法能够更精确、更突出地表示出运动的细节,提高了识别的准确度.人体模型主要有三种:线图模型[25]、22D模型[26]和立体模型[27],其中线图模型和22D模型在人的运动识别中用的较为广泛,而立体模型由于其复杂度较高、参数难以估计,故较少地用于人的运动识别,尤其是在

68  电  子  学  报2007年

单摄像机的情况下.

Feng和Perona[28]采用22D模型来为人体建模,整个模型由十个矩形组成,每个矩形有五个自由度,然后采用当前帧和下一帧中模型的参数联合表示当前帧中的人体姿态.Arie等人[27]采用3D模型来描述人体,全身由九个圆柱体和一个球体组成,分别代表躯干、上臂、前臂(包括手)、大腿、小腿(包括脚)和头,在具体算法中作者将表示人体的3D模型投影到2D平面上,通过跟踪得出所有主要关节的2D笛卡尔坐标,最终人体的姿势由上肢、下肢和躯干的姿态决定,特征向量由上臂、下臂、大腿、小腿和躯干的角度及其角速度组成.

基于模型的表示方法能够准确地描述人的运动,尤其是涉及到肢体的动作,能够较为容易地解决遮挡问题,但是其特征空间的维数很高,在进行非线性优化的时候非常困难.另外,在图像分辨率低的情况下,对模型参数进行估计也很困难.的动态过程,并且将时间尺度和空间尺度上的运动的微小变化采用概率的方法进行建模.所以,该方法对于运动序列在时间和空间尺度上的小的变化具有很好的鲁棒性.采用概率网络来进行运动识别主要是把运动的每一种静态姿势定义为一个状态或者一个状态的集合,通过网络的方式将这些状态连接起来,状态和状态之间的切换采用概率来描述,一个运动序列可看成一次这些状态或者状态集合的遍历过程.目前,在人的运动识别领域内采用的概率网络主要有两种:隐马尔可夫

)和动态贝叶斯网络模型(HiddenMarkovModels,简称HMMs

(DynamicBayesianNetworks,简称DBNs)[9,18,34,35],如图1和图2,前者是后者的一种特殊形式.近两年,作为一种新的概率网络模型,条件随机场(Conditionalrandomfield)[40]被用于人的行为识别中[41].条件随机场对观察值不进行建模,所以避免通常概率模型中的独立性假设,比较符合实际情况.目前,HMMs及其改进模型是人的运动识别中应用最广泛的数学模型.

4 人运动的识别技术和方法  关于人的运动识别的研究越来越多,很多新的方法也不断地涌现出来.模板匹配技术是一种较早用在人的运动识别上的方法[14,27,29].近些年来,越来越多的研究倾向于采用概率网络来解决该问题[15,23,30,31,36].此外,最近几年,采用文法来进行人的运动识别开始崭露头角并且引起了人们的重视[32,33].411 基于模板的方法

基于模板的方法是将运动图像序列转化成一个或者一组静态的模板,通过将待识别样本的模板和已知的模板进行匹配而获得识别的结果.

基本的模板匹配方法是将待识别模板和已知的模板标本进行直接匹配,取距离最小的已知模板所属的类别作为识别结果.Bobick和Davis[14]将图像序列转化成运动能量图像(MEI)和运动历史图像(MHI),采用马氏距离(Mahalanobisdis2tance)来度量模板之间的相似性.其中MEI反映了运动所覆盖的范围及其强度,而MHI在一定程度上反映了运动在时间上的变化.该方法计算量小,但是鲁棒性不够好,尤其对时间间隔的变化比较敏感.

由于同一模式的运动的持续时间可能不一样,所以在模板匹配的时候将模板在时间上进行规整非常有必要.Arie等人[27]采用在匹配前将模板序列进行线性规整,然后采用投票的方式进行匹配.通常在运动过程中,某些动作持续的时间长度是随机变化的,所以线性时间规整的方法不能很好的解决问题.动态时间规整(dynamictimewarping,简称DTW)是一种很好的非线性时间规整方法,它的目的是将待识别运动模板的时间轴非线性地映射到训练模板的时间轴上,使得二者距离最小.Bobick[29]采用DWT的方法对人的手势进行了识别.动态时间规整的方法较好地解决了人的运动在时间尺度上的不确定性.412 基于概率网络的方法

基于概率网络的方法是当前最主要的人的运动识别方[9,18,23,30,31,34~39]法.采用概率网络的方法充分考虑了人运动

自从Yamato等人[15]将HMMs引入到人的运动识别中来,

HMMs及其改进模型逐渐成为主流的方法[23,30,31,36~38],其隐含的假设是运动的当前状态的取值只依赖于前一时刻的状态.基于HMMs的识别方法通常是先提取出表示运动的特征向量序列,通过学习算法将HMMs的参数训练出来,根据训练好的模型对未知的运动序列进行分类.一般来说人的运动并不严格符合马尔可夫特性,并且HMMs的结构导致了它只能为单一的动态过程进行较好地建模,这些原因使得传统的HMMs在识别较为复杂的运动时不能得到很好的结果.针对较为复杂的交互行为譬如手势,Brand等人[36]提出了耦合隐

),并马尔可夫模型(CoupledHiddenMarkovmodel,简称CHMM

对手语进行了识别.CHMM能够合理地为两个或多个有相互关系的动态过程进行建模,并且将多个动态过程的特征空间分解开来,大大减少了状态的个数,降低了算法的计算复杂度.Oliver[30]等人提出了一个交互行为识别系统,系统采用HMMs和CHMMs对广场等地方的人的交互行为进行识别,实验结果表明CHMMs要比HMMs的识别性能优越得多.Ren和Xu[31]把基元特征和CHMM结合起来,对智能教室里的多种行

第 1 期杜友田:基于视觉的人的运动识别综述78

[23]为进行了识别.Luhr[42]和Nguyen采用分层隐马尔可夫模型(HierarchicalHiddenMarkovmodels,简称HHMMs)对长时间的人的运动做了分析.HHMMs具有多层的隐马尔可夫模型的结构,所以能够更为清楚地表达出人的运动中不同层次的行为细节.Duong等人[43]除了考虑行为的层次结构外,还将运动状

(Switch态的典型持续时间融合到模型中去,提出了S2HSMM2

ingHidden2semiMarkovModel),实验结果表明在对复杂的运动进行识别时S2HSMM性能要比HHMM好,但是该算法复杂度

[44]

较高.除此以外,HMM的其它改进模型如AHMM和LH2MM[45]等也被用于该领域中.

动态贝叶斯网络对于动态过程的建模和分析、多信息的融合、复杂动态系统的分析识别更为有效和灵活.近些年来,动态贝叶斯网络在人的运动识别研究中逐渐成为了一个有力的数学工具.动态贝叶斯网络的每一个时间切片都是一个有向无环的概率图,不同的切片之间包含相等或不等数目的状态节点.同隐马尔可夫模型一样,动态贝叶斯网络可以对任何分布建模,在很多应用中,这种灵活性是本质的.和隐马尔可夫模型相比,动态贝叶斯网络的优点是它能够将一个复杂的动态系统分解成一些变量,充分利用了时序概率空间模型中的稀疏性,降低了计算的复杂度[46].同时,它更能够反映出复杂动态系统的本质.Pavlovic等人[18]将隐马尔可夫模型和线性动态系统(LDS)耦合起来,构成一个具有混合状态的动态贝叶斯网络,以此对手势进行识别.该文认为目标的运动由两部分组成,一部分是外界环境对目标的操作,用HMM对不同类型的操作进行建模,另一部分是符合牛顿定律的物理运动,用LDS表示.Luo等人[35]采用动态贝叶斯网络对体育运动进

行建模,每个时间片包含五个隐含的状态节点和四个观察节点,状态节点分别表达人的四肢和头部的位置信息,而观察节点表示目标端点的位置坐标.Gong和Xiang[9]采用动态贝叶斯网络对人群的行为进行建模和分析,并对特定的人群行为进行识别,其网络的结构通过Schwarz贝叶斯信息准则(BIC)学习得到.413 基于文法技术(syntactictechnique)的方法

文法技术在文本分析和语音识别领域用的非常多.计算机视觉领域中的基于文法技术的分析大部分是用于静态图片的纹理识别,近些年来逐渐被用于人的运动识别并引起了人们的注意.文法分析主要的优势在于它对复杂结构的理解和对先验信息的利用.

Brand[32]采用简单的确定性语法来对离散的事件进行识别.Ivanov和Bobick[33]采用随机文法技术对多智能体的长时间行为和交互进行了检测和识别,其思想是将识别问题分成两层,底层是用独立概率事件检测器来检测候选特征,其输出为上层随机上下文无关的句法分析机制服务.Cho等人[47]应用统计语法推理来解决人的行为的自动识别,其中人的行为定义为多个关节体运动的组合.Kitani[48]将文法技术和图模型

)的基础上实现了一结合起来,在统计上下文无关语法(SCFG

个分层的贝叶斯网络,这种方法对于解决单智能体的行为重叠很有效.

其他如神经网络[49]和有限状态机[50]等方法也经常被用于人的运动识别领域中.从上面的阐述可以看出,各种方法都有自己的优点和不足,表1是在文献[2,6,7,46,51]基础上分析得到的几种具体识别方法的比较结果.

空间尺度鲁棒性

lowlowhighhigh

表1 几种识别方法的比较

适合的运动类别

模板匹配

DTWHMMDBN

movementmovement,activitymovement,activityactivity,actionactivity,action

时间尺度鲁棒性

lowhighhighhighhigh

先验知识需求程度

lowlowmediummediumhigh

计算复杂度

lowmediumhighmediumhigh

文法技术—①

5 存在的问题

  尽管基于视觉的人的运动识别在近些年来已经取得了很大的研究进展,但是这些研究还处在一个比较基础的阶段,还很不成熟,有许多问题和难点亟需解决.

(1)更本质的运动表示方法

计算机视觉的研究目的是从2D的图像去理解3D的客观世界,在由3D到2D的成像过程中,丢失了很多信息.摄像机与目标的相对视角、距离的变化,以及外界环境的改变等都可能会使得同一种运动有不同的投影.所以,在表示人的运动时如何能够找到更本质的运动表示方法是很有意义的.尽管从2D图像中能够对人的姿态进行三维重建,但是需要做较多的假设,并且复杂度太高,难以用于人的运动识别.目前基

于视角不变的运动识别的研究很少[12,52,53],Rao和Shah[52]将

轨迹表示为一系列的动态瞬间和间隔,动态瞬间是时空曲率的极值点,是与视角变化无关的特征,它表示了行为的速度、方向和加速度等物理量的重要变化.另外,对于表示运动的特征来说,不同复杂程度的运动会采用不同的运动表达方法,其特征向量的长度也不一样,特征向量维数太低则不能准确地表示运动,维数太高则导致计算量大,信息冗余,而且学习起来很困难,一个有效的方法是采用多分辨率的方法来提取特征或者用识别的结果来指导特征提取.

(2)连续运动的实时识别

目前的大多数运动识别方法是基于分割后的行为序列进行分析的,而对连续的、长时间的运动序列进行分析的研究工作比较少.其中有两个需要解决的子问题:一是如何判断一个行为的起始点和终止点;二是如何学习长运动序列中的新的

①基于文法技术的方法在空间尺度上的鲁棒性在较大程度上受底层处理的影响.

88  电  子  学  报

manmotioncapture[J].CVIU,vey[J].CVIU,

2007年

2001,81(3):231-268.

行为.在较为简单的运动中,第一个已经取得了较好的结

果[54].对于第二个子问题,半监督学习是一种行之有效的方法,但是如何更好地采用半监督学习的方法来学习新的行为,目前研究得还很少[55,56].尤其是在可疑行为的检测和识别方面,由于可疑行为的稀少性,难以获取大量样本来进行监督学习,所以基于半监督学习的方法就显得更为重要.

(3)人的运动识别算法的评价对于一种方法,鲁棒性、准确率以及算法速度等都是很重要的指标.目前,准确率是当前研究工作中最为关注的,而另外两项指标讨论的比较少,尤其是算法的鲁棒性,该领域内几乎没有工作对其进行分析.在人的运动识别中,目前还没形成一些标准的数据集来对算法进行检验和评价,大部分研究工作是基于各自的测试序列上进行的.这样导致的结果是很多算法没有一个统一的评价和衡量标准.另外,算法的鲁棒性和速度是将理论应用于实际时必须考虑的问题.一个算法适合于什么样的环境,在多么恶劣的环境下仍能够保持一定的正确率,这在目前很多研究工作中很少被讨论到.

(4)智能技术的应用

目前绝大多数人的运动识别研究集中在简单的动作和行为识别上,譬如手势,走,跑等简单而规范的运动.如何能采用人工智能领域的技术和成果将简单的运动识别推广到对复杂场景下的事件的理解,是解决该领域理论问题和应用问题的关键.另外,计算机视觉主要解决的问题是对外部世界的理解,对于一个实际的视觉系统来说,如何根据外部的环境进行长时间的自主学习,如何对学习的知识进行组织、储存和记忆,这也是一个重要的问题.

[4]GavrilaDM.Thevisualanalysisofhumanmovement:Asur2

1999,73(1):82-98.

[5]刘相滨,向坚持,王胜春.人行为识别与理解研究探讨

[J].计算机与现代化,2004,(12):1-5.LiuXiang2bin,XIANGJianComputerandModernization,

2chi,WANGSheng2chun.Explo2

rationofrecognitionandunderstandingofhumanbehavior[J].

2004,(12):1-5.(inChinese)

[6]任海兵,祝远新,徐光 .基于视觉手势识别的研究———

综述[J].电子学报,2000,28(2):118-121.

RENHai2bing,ZHUYuan2xin,XUGuang2you.Vision2based

recognitionofhandgestures:asurvey[J].ActaElectronicaSinica,2000,28(2):118-121.(inChinese)[7]AggarwalJK,ParkS.Humanmotion:Modelingandrecognitionofactionsandinteractions[A].InProcGreece:IEEEComputerSociety,

2

3DPVT[C].

2004.640-647.

[8]BobickAF.Movement,activity,andaction:Theroleofknowl

edgeintheperceptionofmotion[J].PhilTransRoyalSocietyLondonB,1997,352(1358):1257-1265.

[9]GongS,XiangT.Recognitionofgroupactivitiesusingdynamic

probabilisticnetworks[A].InProcICCV[C].Washington:IEEEComputerSocietyPress,

2

2003.742-749.

[10]VaswaniN,ChowdhuryAR,ChellappaR.Statisticalshape

theoryforactivitymodeling[A].InProcICME[C].Baltimore:IEEEComputerSocietyPress,[11]VaswaniN,ChowdhuryAR,ChellappaR.

2

2003.181-184.

“Shapeactivity”:

22

6 结束语

  基于视觉的人的运动识别实质上是一个人工智能问题,

它涉及了计算机视觉、图像处理、模式识别、人工智能以及生理学等领域的知识.该方向的研究成果在智能监控等领域有着重要的应用意义和广泛的应用前景.目前,该方向的研究还处在一个相对基础的阶段,客观环境的多样性以及人运动的复杂性使得人的运动识别变得比较困难,还有很多亟待解决的问题摆在研究者面前.参考文献:

[1]魏志强,纪筱鹏,冯业伟.基于自适应背景图像更新的运

Acontinuous2stateHMMformoving/deformingshapeswithapplicationtoabnormalactivitydetection[J].IEEETransImageProcessing,2005,14(10):1603-1616.[12]ParameswaranV,ChellappaR.Quasi

Quebec:IEEEComputerSocietyPress,

2invariantsforhumanac

2002,307-310.

tionrepresentationandrecognition[A].InProcICPR[C].[13]FaugerasO.Three2DimensionalComputerVision:AGeomet

ricViewpoint[M].Massachusetts,USA:TheMITpress,

2

1993.

[14]BobickAF,DavisJW.Therecognitionofhumanmovement

usingtemporaltemplates[J].IEEETrans.PAMI,(3):257-267.

[15]YamatoJ,OhyaJ,IshiiK.Recognizinghumanactionintime

sequentialimagesusingHiddenMarkovmodel[A].InProcCVPR[C],IEEE,

2001,15

动目标检测方法[J].电子学报,2005,33(12):2261-2264.WEIZhi2qiang,JIXiao2peng,FENGYe2wei.Amovingobjectdetectionmethodbasedonself2adaptiveupdatingofbackground[J].ActaElectronicaSinica,2005,33(12):2261-2264.(in

Chinese)

[2]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算

2

1992.379-385.

[16]KaleA,RajagopalanAN,CuntoorN,KrugerV.Gait

recognitionofhumansusingcontinuousHMMs[A].InProc.

2based

IEEEInternationalConferenceonAutomaticFaceandGestureRecognition[C].Washington:IEEEComputerSocietyPress,

机学报,2002,25(3):225-237.

WANGLiang,HuWei2ming,TANTie2niu.Asurveyofvisualanalysisofhumanmotion[J].JournalofComputers,2002,25(3):225-237.(inChinese)

[3]MoeslundT,GranumE.Asurveyofcomputervision2basedhu2

2002.321-326.

[17]VeeraraghavanA,ChowdhuryAR,ChellappaR.Matching

shapesequencesinvideowithapplicationsinhumanmovementanalysis[J].IEEETrans.PAMI,

2

2005,27(12):1896-

第 1 期

1909.

[18]PavlovicV,GreyBJ,HuangTS.Time

杜友田:基于视觉的人的运动识别综述

[33]IvanovYA,BobickAF.Recognitionofvisualactivitiesand

98

2seriesclassification

1999.609-

interactionsbystochasticparsing[J].IEEETransPAMI,

usingmixed2stateddynamicBayesiannetworks[A].InProc.CVPR[C].USA:IEEEComputerSocietyPress,

2000,22(8):852-872.

[34]LoccozNM,BremondF,ThonnatM.RecurrentBayesiannet

workfortherecognitionofhumanbehaviorsfromvideo[A].InProcICVS[C].Graz:IEEEComputerSocietyPress,

2

2003.

615.

[19]RosalesR,SclaroffS.Aframeworkforheading

nitionofhumanactivity[J].CVIU,manmotionbehaviorsusingOmniIEEEIndustrialElectronicsSociety,Theory[M].NewYork:Wiley,

2guidedrecog2

2

2003,91(3):335-367.68-77.

[35]LuoY,WuTD,HwangJN.Object

namicBayesiannetworks[J].CVIU,

[20]NishimuraT,SogoT,OkaR,IshiguroH.Recognitionofhu2basedanalysisandinter

2003,92(2):196-216.

2directionalvisionsensors

2000,4:2553-2558.

pretationofhumanmotioninsportsvideosequencesbydy[36]BrandM,OliverN,PentlandA.Coupledhiddenmarkovmodelsforcomplexactionrecognition[A].InProcCVPR[C].USA:IEEEComputerSocietyPress,2

22

[A].InProc.AnnualConferenceoftheIEEE[C].France:[21]KendallDG,BardenD,CarneTK,LeH.ShapeandShape

1999.1997,994-999.

[22]BabuRV,RamakrishnanKR.Recognitionofhumanactionsusingmotionhistoryinformationextractedfromthecompressedvideo[J].ImageandVisionComputing,[37]OliverN,HorvitzE.AcomparisonofHMMsanddynamic2Bayesiannetworksforrecognizingofficeactivities[J].LectureNotesinArtificialIntelligence,

2004,22(8):2005,3538:199-209.

597-607.

[23]NguyenNT,PhungDQ,VenkateshS,BuiH.Learningand

detectingactivitiesfrommovementtrajectoriesusingthehierachicalhiddenMarkovmodel[A].InProcCVPR[C].SanDiego:IEEEComputerSocietyPress,

[38]KoloniasI,ChristmasW,KittlerJ.Useofcontextinautomatic

annotationofsportsvideos[J].LectureNotesinComputer

2Science,2004,3287:1-12.

[39]ParkS,AggarwalJK.AhierarchicalBayesiannetworkfor

eventrecognitionofhumanactionsandinteractions[J].Multi

2005.955-960.2

[24]PsarrouA,GongSG,WalterM.Recognitionofhumanges

turesandbehaviourbasedonmotiontrajectories[J].ImageandVisionComputing,

2mediaSystems,2004,10(2):164-179.

[40]LaffertyJ,MccallumA,PereiraF.Conditionalrandomfields:

probabilisticmodelsforsegmentingandlabelingsequencedata[A].InProcICML[C].Massachusetts:IEEEpress,

2002,20(5-6):349-358.

[25]GonzalezJ,VaronaJ,RocaFX,etal.ASpaces:Actionspaces

forrecognitionandsynthesisofhumanactions[J].LectureNotesinComputerScience,

2001,282

-289.

[41]SminchisescuC,KanaujiaA,LiZ,MetaxasD.Conditional

2002,2492:189-200.

[26]JuSX,BlackMJ,YacoobY.Cardboardpeople:aparameter

izedmodelofarticulatedimagemotion[A].InProc.AutomaticFaceandGestureRecognition[C].Vermont:IEEEComputerSocietyPress,

22222

modelsforcontextualhumanmotionrecognition[A].InProcICCV[C].Beijing:IEEEComputerSocietyPress,

2005.2:

1808-1815.

[42]LuhrS,BuiHH,VenkateshS,WestGAW.Recognitionof

HumanActivitythroughHierarchicalStochasticLearning[A].InProc.PerCom[C].Texas:IEEEComputerSocietyPress,

1996.38-44.

[27]ArieJB,WangZ,PanditP,RajaramS.Humanactivityrecog

nitionusingmultidimensionalindexing[J].IEEETrans.PAMI,2002,24(8):1091-1104.

[28]FengX,PeronaP.Humanactionrecognitionsequenceof

moveletcodewords[A].InProc.ComputerSocietyPress,[29]BobickAF,WilsonAD.Astate

2003.416-422.

[43]DuongTV,BuiHH,PhungDQ,VenkateshS.Activity

recognitionandabnormalitydetectionwiththeswitchinghiddensemi2Markovmodel[A].InProcCVPR[C].SanDiego:

3DPVT[C].Italy:IEEE2

2002.717-723.

2basedapproachtotherepre2IEEEComputerSocietyPress,2005.838-845.

sentationandrecognitionofgesture[J].IEEETransPAMI,[44]NguyenNT,VenkateshS,WestGAW.Learningpeople

movementmodelfrommultiplecamerasforbehaviourrecognition[J].LectureNotesinComputerScience,

1997,19(12):1325-1337.

[30]OliverNM,RosarioB,PentlandAP.ABayesiancomputer

visionsystemformodelinghumaninteractions[J].IEEETransPAMI,2000,22(8):831-843.

[31]RenH,XuG.Humanactionrecognitionwithprimitive

coupled2HMM[A].InProc.ICPR[C].Quebec:IEEEComputerSocietyPress,

2

2004,3138:

315-324.

[45]OliverN,GargA,HorvitzE.Layeredrepresentationsfor

2based

2

learningandinferringofficeactivityfrommultiplesensorychannels[J].CVIU,

2004,96(2):163-180.

2002.2:494-498.[46]RussellS,NorvigP.ArtificialIntelligence:AModernAp

proach(SecondEdition)[M].PrenticeHall.

2

[32]BrandM.Understandingmanipulationinvideo[A].InProc

SecondInt’lConfAutomaticFaceandGestureRecognition[C].Vermont:IEEEComputerSocietyPress,

2004.

[47]ChoK,ChoH,UmK.Humanactionrecognitionbyinference

ofstochasticregulargrammars[J].LectureNotesinComputer

1996.94-99.

09

Science,2004,3138:388-396.

  电  子  学  报

[C].SanDiego:IEEEComputerSocietyPress,

2007年2005.611-

[48]KitaniKM,SatoY,SugimotoA.Deletedinterpolationusinga

hierarchicalBayesiangrammarnetworkforrecognizinghumanactivity[A].InProcIEEEworkshoponVSPETS[C].Beijing:IEEEComputerSocietyPress,

618.

[56]CohenI,SebeN,CozmanDF,HuangTS.Semi

2

2005.239-246.

[49]HuW,XieD,TanT.Learningactivitypatternsusingfuzzy

self2organizingneuralnetwork[J].IEEETrans.SystemsManandCyberneticsPartB

2supervised

learningforfacialexpressionrecognition[A].InProc5thACMSIGMMInternationalWorkshoponMultimediaInforma2tionRetrieval[C].Toronto:ACMpress,2003.17-22.

2Cybernetics,2004,34(3):1618-2basedeventrecog2

作者简介:

杜友田 男,1980年6月出生于山东省日照市.2002年7月毕业于西安交通大学电气工程学院,现为清华大学自动化系博士研究生,主要从事计算机视觉、智能监控、模式识别方面的研究.

E2mail:dyt02@mails.tsinghua.edu.cn1626.

[50]HongengS,NevatiaR,BremondF.Video

methods[J].CVIU,

nition:activityrepresentationandprobabilisticrecognition

2004,96(2):129-162.

2003,36(3):585-601.

[51]WangL,HuW,TanT.Recentdevelopmentsinhumanmotion

analysis[J].PatternRecognition,[52]RaoC,ShahM.View

2invarianceinactionrecognition[A].InProc.CVPR[C].Hawaii:IEEEComputerSocietyPress,2001.316-322.

[53]ParameswaranV,ChellappaR.Viewinvarianceforhumanac2

tionrecognition[J].IJCV,2006,66(1):83-101.[54]DengJW,TsuiHT.AnHMM2basedapproachforgesture

segmentationandrecognition[A].InProcICPR[C].Barcelona:IEEEComputerSocietyPress,

陈 峰 男,1971年12月出生于辽宁省鞍山市,副教授,1994和1996年在俄罗斯圣彼得堡国立技术大学获得学士和硕士学位,2000年在清华大学获得博士学位,主要研究方向为计算机视觉和视频处理.

E2mail:chenfeng@mail.tsinghua.edu.cn

2000.679-682.

[55]ZhangD,PerezDG,BengioS,MccowanI.Semi2supervised

adaptedHMMsforunusualeventdetection[A].InProcCVPR

因篇幅问题不能全部显示,请点此查看更多更全内容