一种基于RGBD相机姿态估计的引体向上计数方法[发明专利]

2021-12-08 来源：好走旅游网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112800905 A(43)申请公布日 2021.05.14

(21)申请号 202110067884.2(22)申请日 2021.01.19

(71)申请人浙江光珀智能科技有限公司

地址 323000 浙江省丽水市莲都区南明山

街道石牛路268号1幢B座303-5室(72)发明人朱程利　余小欢　陈啟煌　伍贤彬　

马村　陈嵩　(74)专利代理机构杭州钤韬知识产权代理事务

所(普通合伙) 33329

代理人唐灵　赵杰香(51)Int.Cl.

G06K 9/00(2006.01)G06K 9/62(2006.01)G06T 7/194(2017.01)

权利要求书2页说明书6页附图4页

CN 112800905 A(54)发明名称

一种基于RGBD相机姿态估计的引体向上计数方法(57)摘要

本发明公开了一种基于RGBD相机姿态估计的引体向上计数方法，采集RGB和Depth图像，并对RGB和Depth图像进行处理得到抑制掉大部分

将处理后的RGB和Depth图像输背景信息的图像；

入至mobi le net系列网络结构模型中进行有效的融合，输出关键点置信度图和部分亲和场图；通过积分函数评估两个关键点之间的相关性，将各人的关节点进行连接，得到图像中所有人的姿态骨架图；根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数；根据运动参数判断是否进行引体向上动作，如果是，则进行引体向上计数。本发明能够适应各种运动场景，通过Depth信息分割掉背景信息，计数机制更加鲁棒，计数更加精确，同时提升了计算的效率。

CN 112800905 A

权　利　要　求　书

1/2页

1.一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于，包括以下步骤：S1：采集RGB和Depth图像，并对RGB和Depth图像进行处理得到抑制掉大部分背景信息的图像；

S2：将处理后的RGB和Depth图像输入至mobile net系列网络结构模型中进行有效的融合，输出关键点置信度图和部分亲和场图；通过积分函数评估两个关键点之间的相关性，将各人的关节点进行连接，得到图像中所有人的姿态骨架图；

S3：根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数；S4：根据运动参数判断是否进行引体向上动作，如果是，则进行引体向上计数。2.根据权利要求1所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：步骤S1中对RGB和Depth图像进行处理的步骤包括,

S11:利用具有时空一致性的RGBD相机，采集RGB和Depth图像，分别对RGB和Depth图像做背景分割；

具体令RGB图像某像素点坐标为XR(i,j)，对应的深度图像素点坐标为XD(i,j)，根据深度图的分辨率生成一个掩码图，该掩码图对应像素点坐标为XM(i,j)，根据场景复杂度设计一个可控阀值δ，如将人物活动的范围作为阀值标准，对掩码图进行二值化操作优化；

S12：将优化后的掩码图分别与RGB和Depth图像进行点乘，抑制掉RGB和Depth图像中大部分的背景信息。

3.根据权利要求1所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：步骤S2中得到所有人的姿态骨架图的步骤包括，

S21:将处理后的RGB和depth图像通过mask之后,分别通过两个分支的网络得到RGB_f和Depth_f；同时学习一个1x2的权重向量[WD,WR],分别表示RGB和Depth模态的权重,将模态权重[WD,WR]分别与RGB_f和Depth_f相乘,然后进行RGB和Depth特征图的融合，得到融合后的特征；

S22:将融合后的特征输入到stage1网络结构中,每个stage的输出有两个分支,两个分支分别输出关键点置信图和关键点的亲和场,stage n的输入为stage n‑1的输出；

S23:得到亲和场和关键点的位置后，通过积分函数评价两关键点的相关性；S24:利用匈牙利算法求得相邻关键点的最优匹配，得到图像中所有人的姿态骨架图。4.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：所述mobile net系列网络结构模型中每个阶段均采用3×3和1×1的卷积层，并使用空洞卷积增加网络的感受野。

5.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：通过最大化操作得到真值置信图，在测试时，通过最大化操作得到关键点的位置，并利用非极大值抑制排除冗余关键点。

6.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：每个阶段分支上在输出时都添加有损失函数，所述损失函数均用L2范数进行约束。

7.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：所述mobile net系列网络结构模型用NAS(Neural Architecture Search)搜索的方法来权衡网络的精度和速度。

8.根据权利要求1所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在

CN 112800905 A

权　利　要　求　书

2/2页

于：步骤S3中步骤中所述引体向上运动参数包括：头部位置变化特征、手臂位置变化特征；所述头部位置变化特征指的是在运动的过程中头部高度变化情况，通过鼻子、耳朵、眼睛的三个关键点位置变化来估算；

所述手臂变化特征指在做引体向上过程中，手臂弯曲变化情况，通过手腕、手肘以及肩膀三个关键点位置变化来估算。

9.根据权利要求8所述的一种基于RGBD相机姿态估计的引体向上计数方法，其特征在于：所述手臂弯曲变化情况通过判断手腕到肩膀的连线长度是否大于0.9倍的手肘到手腕和手肘到肩膀的长度之和。

CN 112800905 A

说　明　书

一种基于RGBD相机姿态估计的引体向上计数方法

1/6页

技术领域

[0001]本发明涉及一种人体向上计数方法，特别涉及一种基于RGBD相机姿态估计的引体向上计数方法。

背景技术[0002]引体向上要求有一定的握力和上肢力量，这个力量必须克服自身的体重才能完成一次，引体向上对发展上肢悬垂力量、肩带力量和握力有重要作用，因此，引体向上是健身和锻炼最为常见的项目之一，为了科学有效的健身与锻炼，在做引体向上项目时，需要对引体向上进行有效的计数。

[0003]目前引体向上计数的方法有人工计数，这种计数方法依靠计数人员的主观判断，在模棱两可的情况下容易出错，另外也浪费人力；[0004]中国发明专利授权公告号CN105879358B，授权公告日2018年08月28日，专利名称《引体向上成绩测试仪》，该方法采用拉线式位移传感器，这种方法要求被测者穿戴相应的设备，给被测者带来不便，另外需要装置上下杠感知单元，设计较为复杂；[0005]中国发明专利公开号CN 107122798A，公开日2017年09月01日，专利名称《基于深度卷积网络的引体向上计数检测方法及装置》，该方法公开了一种利用深度学习进行引体向上的计数，该方法存在两方面的问题，一是，采集的数据比较多，需要采集大量的鼻子过杆，头部过杆但鼻子未过杆等数据，需要对数据进行标注，需要投入大量的人力物力，二是，对模棱两可的情况不能很好的处理。[0006]中国发明专利公开号CN 111282248A，公开日2020年06月16日，专利名称《一种基于骨骼和人脸关键点的引体向上检测系统及方法》，该方法通过采用单帧大臂和小臂之间的夹角来计数，该方法存在两个问题：一是，当有某个关键点检测失败之后，这些计数机制则失败，造成计数误差。二是，当RGB图像出现多人时，会检测出所有人的关键点信息，多人关键点信息会相互影响，造成计数不精确；同时检测多人的关键点信息也会带来一定的时延。

[0007]所以有必要提出一种新的方案，基于RGBD相机姿态估计的引体向上计数方法，该方法通过获取RGB和Depth图像，并对RGB和Depth图像进行处理，将处理后的RGB和Depth图像输入至网络模型中获得图像中所有人的姿态骨架图，根据姿态骨架图设计引体向上相应的动作逻辑机制，进行引体向上计数的方案。发明内容

[0008]针对目前引体向上计数出现的问题，本发明提供了一种基于RGBD相机姿态估计的引体向上计数方法，结合RGBD图像的互补特性进行网络结构的设计，使得网络能够自适应的融合RGB和Depth图像的特征，网络同时回归人体骨骼关键点和进行关键点的关联，得到人体姿态骨架图，然后对检测的关键点进行逻辑判断和对比，设计引体向上逻辑和动作，并进行引体向上计数。

CN 112800905 A[0009]

说　明　书

2/6页

根据本发明的目的提供了一种基于RGBD相机姿态估计的引体向上计数方法，包括

以下步骤：[0010]S1：采集RGB和Depth图像，并对RGB和Depth图像进行处理得到抑制掉大部分背景信息的图像；[0011]S2：将处理后的RGB和Depth图像输入至mobile net系列网络结构模型中进行有效的融合，输出关键点置信度图和部分亲和场图；通过积分函数评估两个关键点之间的相关性，将各人的关节点进行连接，得到图像中所有人的姿态骨架图；[0012]S3：根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数；[0013]S4：根据运动参数判断是否进行引体向上动作，如果是，则进行引体向上计数。[0014]优选的，步骤S1中对RGB和Depth图像进行处理的步骤包括,[0015]S11:利用具有时空一致性的RGBD相机，采集RGB和Depth图像，分别对RGB和Depth图像做背景分割；

[0016]具体令RGB图像某像素点坐标为X(i,j)，对应的深度图像素点坐标为XD(i,j)，根R据深度图的分辨率生成一个掩码图，该掩码图对应像素点坐标为XM(i,j)，根据场景复杂度设计一个可控阀值δ，如将人物活动的范围作为阀值标准，对掩码图进行二值化操作优化；[0017]S12：将优化后的掩码图分别与RGB和Depth图像进行点乘，抑制掉RGB和Depth图像中大部分的背景信息。[0018]优选的，步骤S2中得到所有人的姿态骨架图的步骤包括，

[0019]S21:将处理后的RGB和depth图像通过mask之后,分别通过两个分支的网络得到RGB_f和Depth_f；同时学习一个1x2的权重向量[WD,WR],分别表示RGB和Depth模态的权重,将模态权重[WD,WR]分别与RGB_f和Depth_f相乘,然后进行RGB和Depth特征图的融合，得到融合后的特征；

[0020]S22:将融合后的特征输入到stage1网络结构中,每个stage的输出有两个分支,两个分支分别输出关键点置信图和关键点的亲和场,stage n的输入为stage n‑1的输出；[0021]S23:得到亲和场和关键点的位置后，通过积分函数评价两关键点的相关性；[0022]S24:利用匈牙利算法求得相邻关键点的最优匹配，得到图像中所有人的姿态骨架图。

[0023]优选的，所述mobile net系列网络结构模型中每个阶段的网络结构均采用3×3和1×1的卷积层，并使用空洞卷积增加网络的感受野。[0024]优选的，通过最大化操作得到真值置信图，在测试时，通过最大化操作得到关键点的位置，并利用非极大值抑制排除冗余关键点。[0025]优选的，每个阶段分支上在输出时都添加有损失函数，所述损失函数均用L2范数进行约束。

[0026]优选的，所述mobile net系列网络结构模型用NAS(Neural Architecture Search)搜索的方法来权衡网络的精度和速度。[0027]优选的，步骤S3中步骤中所述引体向上运动参数包括：头部位置变化特征、手臂位置变化特征；所述头部位置变化特征指的是在运动的过程中头部高度变化情况，通过鼻子、耳朵、眼睛的三个关键点位置变化来估算；

[0028]所述手臂变化特征指在做引体向上过程中，手臂弯曲变化情况，通过手腕、手肘以

CN 112800905 A

说　明　书

3/6页

及肩膀三个关键点位置变化来估算。[0029]优选的，所述手臂弯曲变化情况通过判断手腕到肩膀的连线长度是否大于0.9倍的手肘到手腕和手肘到肩膀的长度之和。[0030]本发明的有益效果是：

[0031]1.本发明不依靠计数人员的主观判断，避免了在模棱两可的情况下容易出错，同时节省了人力。

[0032]2.本发明不需要复杂的装置，只需要一款RGBD相机即可，价格低廉。[0033]3.本发明利用Depth信息分割掉背景信息，使得深度值达到最优，充分发挥RGBD的互补特性，结合RGBD多模态的输入，设计鲁棒的深度学习算法进行人体关键点的估计，并进行网络模型的压缩；使其能够在边缘设备达到实时的效果，根据运动属性设计相应的动作

通过Depth信息分割掉背景逻辑机制，进行引体向上计数；本发明能够适应各种运动场景，

信息，计数机制更加鲁棒，计数更加精确，同时提升了计算的效率。[0034]4.在设计引体向上相应的动作逻辑时，通过多个关键点的位置综合评估，避免了因为某一个关键点采集不到，计数机制失效。附图说明

[0035]图1是本发明计数方法流程图；[0036]图2是本发明mobile net系列网络结构模型流程图；[0037]图3是本发明mobile net系列网络结构模型每个阶段的网络结构；[0038]图4是本发明人体骨骼关键点图；

[0039]图5是引体向上开始计数的状态或者下一个计数的开始状态；[0040]图6是引体向上开始计数加1状态；[0041]对图4中附图说明：0：鼻子；1：脖子；2：右肩；3：右肘4：右腕；5：左肩；6：左肘；7：左腕；8：右髋；9：右膝；10：右踝；11：左髋；12：左膝；13：左踝；14：右眼；15：左眼；16：右耳；17：左耳；

具体实施方式

[0042]以下将结合附图所示的具体实施方式对本发明进行详细描述，但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。[0043]如图1所示，本发明公开的一种基于RGBD相机姿态估计的引体向上计数方法，包括以下步骤：[0044]S1：采集RGB和Depth图像，并对RGB和Depth图像进行处理得到抑制掉大部分背景信息的图像；

[0045]有一种具体实施例，步骤S1中对RGB和Depth图像进行处理的步骤包括,[0046]S11:利用具有时空一致性的RGBD相机，采集RGB和Depth图像，分别对RGB和Depth图像做背景分割；

[0047]具体令RGB图像某像素点坐标为X(i,j)，对应的深度图像素点坐标为XD(i,j)，根R据深度图的分辨率生成一个掩码图，该掩码图对应像素点坐标为XM(i,j)，根据场景复杂度

CN 112800905 A

说　明　书

4/6页

设计一个可控阀值δ，如将人物活动的范围作为阀值标准，对掩码图进行二值化操作优化；其公式如下：

[0048]

S12：将优化后的掩码图分别与RGB和Depth图像进行点乘，抑制掉RGB和Depth图像

中大部分的背景信息，其公式如下：[0050]X(i,j)＝X(i,j)·X(i,j) (2)RMR

[0051]X(i,j)＝X(i,j)·X(i,j) (3)DMD[0052]S2：将处理后的RGB和Depth图像输入至mobile net系列网络结构模型中进行有效的融合，输出关键点置信度图和部分亲和场图；通过积分函数评估两个关键点之间的相关性，将各人的关节点进行连接，得到图像中所有人的姿态骨架图；[0053]如图2所示，有一具体的实施例，步骤S2中得到所有人的姿态骨架图的步骤包括，[0054]S21:将处理后的RGB和depth图像通过mask之后,分别通过两个分支的网络得到RGB_f和Depth_f；同时学习一个1x2的权重向量[WD,WR],分别表示RGB和Depth模态的权重,将模态权重[WD,WR]分别与RGB_f和Depth_f相乘,然后进行RGB和Depth特征图的融合，得到融合后的特征；

[0055]S22:将融合后的特征输入到stage1网络结构中,每个stage的输出有两个分支,两

个分支分别输出关键点置信图S1＝ρ(F)和关键点的亲和场

[0049]

stage n的输入为

stage n‑1的输出；两个分支都是一轮迭代的预测体系结构，具体迭代公式如下：

[0056][0057][0058][0059]

S23:得到亲和场和关键点的位置后，通过积分函数评价两关键点的相关性；

S24:利用匈牙利算法求得相邻关键点的最优匹配，得到图像中所有人的姿态骨架

图。

有一种优选方案，如图3所示，所述mobile net系列网络结构模型中每个阶段的网

络结构采用3×3和1×1的卷积层，并使用空洞卷积增加网络的感受野。[0061]有一种优选方案，在训练的时候需要分别对关节点位置和亲和区域进行监督，所述损失函数均用L2范数进行约束。为了避免梯度消失现象发生，在每个阶段的每分支输出都添加损失函数，起到中继监督作用。[0062]每支的损失函数如下：

[0063][0064][0065][0060]

其中，是有J个真实关键点的置信图，是有C个真实的部分亲和场。W是一个边

界标志，当图像位置P的注释消失时，W(P)＝0。这个标记是为了避免无标记部分参与到模型

权重的优化。

CN 112800905 A[0066][0067][0068][0069]

说　明　书

5/6页

在训练时，对于每个人k的位置p,生成个人关键点置信图的方式为：

其中Xj,k为个人k，关键点j的真值的位置，σ为控制峰值范围的系数。通过最大化操

作得到真值的置信图：

[0070][0071]

在测试时，通过最大化操作得到关键点的位置，并利用非极大值抑制排除冗余关对于个人k的第c个肢干上的部分亲和场定义为：

键点。

[0072][0073]

其中v＝(xj2,k‑xj1,k)/||xj2,k‑xj1,k||2，xj,k表示个人k的第j个关键点位置，像素P是

否落在肢干上的判断为：

[0075]0≤v·(p‑x)≤l&&|v·(p‑x)|≤σj1,kc,k⊥j1,kl[0076]其中，lc,k和σ最后对所有人相同类别的肢干进行平均，l表示肢干的长度和宽度，使得亲和场的输出通道与肢干种类数相等：

[0077][0078]

[0074]

在得到亲和场和关键点的位置dj之后，通过以下积分函数评估两个关键点的相关

性：

[0079]

计算姿态骨骼就其中p(u)＝(1‑u)dj1+udj2在得到关键点以及相关性的边权之后，

转换成了一个图问题。[0081]利用匈牙利算法求得相邻关键点的最优匹配，从而得到图像中所有人的姿态骨架图。

[0082]有一优选方案，mobile net系列网络结构模型用NAS(Neural Architecture Search)搜索的方法来权衡网络的精度和速度。[0083]S3：根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数；[0084]如图4所示，人体骨骼关键点的相应位置；有一优选方案，步骤S3中步骤中所述引体向上运动参数包括：头部位置变化特征、手臂位置变化特征；所述头部位置变化特征指的是在运动的过程中头部高度变化情况，通过鼻子、耳朵、眼睛的三个关键点位置变化来估算；

[0085]具体的，头部位置的高度变化主要通过鼻子、耳朵、眼睛的位置变化综合考虑得出，头部的整体移动情况的定义如下:

[0080]

CN 112800905 A[0086]

说　明　书

6/6页

yhead＝α·years+β·yeyes+γ·ynose

[0087] (11)[0088]其中，yhead表示此时头部所在的高度，years、yeyes、ynose代表耳朵、眼睛、鼻子所在高度，α、β、γ代表对应的权重。

[0089]手臂变化特征指在做引体向上过程中，手臂弯曲变化情况，通过手腕、手肘以及肩膀三个关键点位置变化来估算；[0090]更为具体的，手臂弯曲变化情况通过判断手腕到肩膀的连线长度是否大于0.9倍的手肘到手腕和手肘到肩膀的长度之和。[0091]具体公式如下：

[0092]

其中，xwrist、xelbow、xshoulder分别表示手腕、手肘、肩膀的横坐标，ywrist、yelbow、

yshoulder分别表示手腕、手肘、肩膀的纵坐标。[0094]S4：根据运动参数判断是否进行引体向上动作，如果是，则进行引体向上计数。[0095]具体的计数过程如下：

[0096]1)当手臂处于伸直状态且头部位置变化|yε，时，表示身体处于悬垂在单head‑y0|>杠上；如图5所示，引体向上开始计数的状态或者下一个计数的开始状态；[0097]2)当手臂处于弯曲状态且头部位置变化|yε时，表示头部过单杠；head‑y0|≤[0098]3)当出现步骤1)到步骤2)的情况时，将计数加1，如图6所示；当出现步骤2)到步骤1)时表示进入下个计数的开始状态；如此的循环计数。[0099]其中，y0表示引体向上杆的高度，ε表示某一距离阀值；[0100]需要说明的是，RGB图像受光线，背景嘈杂以及运动遮挡等挑战影响较大，但是RGB具有丰富的纹理特性。Depth图像具有目标的轮廓信息，能够区分有距离差异的目标，且对光线变化不是很敏感，但是Depth图像缺乏目标的纹理特征。[0101]本发明基于RGBD相机姿态估计的引体向上计数方法，通过自研的RGBD相机获得RGB图像以及Depth图像，并对RGB图像以及Depth图像处理后输入至网络模型进行RGBD特征的有效融合，有效减轻人体姿态估计中各个挑战因素对算法性能的影响，得到所有人的姿态骨架图，得到人体姿态骨架图后，根据运动员骨骼关节点信息提取引体向上运动参数，并进行引体向上计数。本发明能够适应各种运动场景，通过Depth信息分割掉背景信息，计数机制更加鲁棒，计数更加精确，同时提升了计算的效率。[0102]尽管为示例目的，已经公开了本发明的优选实施方式，但是本领域的普通技术人员将意识到，在不脱离由所附的权利要求书公开的本发明的范围和精神前提下，各种改进、增加以及取代是可能的。

[0093]

CN 112800905 A

说　明　书　附　图

1/4页

图1

CN 112800905 A

说　明　书　附　图

2/4页

图2

图3

CN 112800905 A

说　明　书　附　图

3/4页

图4

图5

CN 112800905 A

说　明　书　附　图

4/4页

图6

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种基于RGBD相机姿态估计的引体向上计数方法[发明专利]