图像标注、图像语义分割、模型训练方法及装置[发明专利]

2020-08-05 来源：好走旅游网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112734775 A(43)申请公布日 2021.04.30

(21)申请号 202110066493.9(22)申请日 2021.01.19

(71)申请人腾讯科技（深圳）有限公司

地址 518044 广东省深圳市南山区高新区

科技中一路腾讯大厦35层(72)发明人黄超　

(74)专利代理机构北京同达信恒知识产权代理

有限公司 11291

代理人朱佳(51)Int.Cl.

G06T 7/12(2017.01)G06T 7/13(2017.01)

权利要求书3页说明书19页附图9页

CN 112734775 A(54)发明名称

图像标注、图像语义分割、模型训练方法及装置

(57)摘要

本申请提供一种图像标注、图像语义分割、模型训练方法及装置，涉及人工智能技术领域，用于提高标注样本图像的效率。该图像标注方法

根据边缘像通过检测样本图像中的边缘像素点，

素点，筛选样本图像中多个图像块中的目标图像块，对目标图像块进行标注，从而获得样本图像的标注结果，由于无需对样本图像中所有像素点进行标注，因此可以相对减少样本标注过程中的标注量，从而提高标注样本图像的效率，且，由于图像本身就具有一定的冗余信息，因此即使不对样本图像中所有像素点进行标注，在训练图像语义分割模型时，也不会影响图像语义分割模型的准确性。

CN 112734775 A

权　利　要　求　书

1/3页

1.一种图像标注方法，其特征在于，包括：将待标注的样本图像划分为多个图像块；分别在所述多个图像块中，确定出具有边缘特征的边缘像素点；从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块；

对所述至少一个目标图像块进行类别标注，获得所述样本图像的标注结果。2.如权利要求1所述的方法，其特征在于，所述将待标注的样本图像划分为多个图像块之前，所述方法还包括：

按照预设采样间隔对样本视频进行采样，获得多个候选图像；在所述多个候选图像中，确定任意两个候选图像之间的相似度；若存在相似度大于预设相似度的任意两个候选图像，则剔除任意两个候选图像中的其中一个；

将剩余的候选图像作为待标注的样本图像。3.如权利要求1所述的方法，其特征在于，所述分别在所述多个图像块中，确定出具有边缘特征的边缘像素点，包括：

对所述样本图像进行灰度化处理，获得灰度化后的样本图像；对所述灰度化后的样本图像进行边缘检测处理，获得所述多个图像块中具有边缘特征的边缘像素点。

4.如权利要求1所述的方法，其特征在于，所述从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块，包括：

确定每个图像块中包括的边缘像素点的数量，与样本图像的所有边缘像素点的总数量之间的比值；

根据每个图像块对应的比值，从所述多个图像块中确定出至少一个目标图像块。5.如权利要求4所述的方法，其特征在于，所述根据每个图像块对应的比值，从所述多个图像块中确定出至少一个目标图像块，包括：

将所述多个图像块的比值从大到小进行排序，将前N个比值对应的图像块确定为目标图像块，N为预设自然数；或者，

将比值不小于预设比值的图像块确定为目标图像块；或者，以所述多个图像块的比值为概率，从所述多个图像块中随机选择至少一个目标图像块。

6.如权利要求1～5任一项所述的方法，其特征在于，所述从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块之后，所述方法还包括：

将所述至少一个目标图像块标注为第一标识，将所述多个图像块中除了所述至少一个目标图像块之外的其他图像块标注为第二标识，获得掩模图像，其中，所述第一标识和所述第二标识不同，所述掩模图像用于训练图像语义分割模型。

7.如权利要求1～5任一项所述的方法，其特征在于，所述样本图像为具有预设行为的游戏场景图像；

所述对所述至少一个目标图像块进行类别标注，获得所述样本图像的标注结果，包括：根据预设的多个游戏场景物品类别，标注所述游戏场景图中的至少一个目标图像块中

CN 112734775 A

权　利　要　求　书

2/3页

各像素点所属的游戏场景物品，获得标注结果。

8.一种图像语义分割模型训练方法，其特征在于，包括：通过如权利要求1～7任一项所述的方法，获得样本图像的标注结果；根据样本图像，对图像语义分割模型进行多次迭代训练；直到图像语义分割模型收敛，获得已训练的图像语义分割模型；其中，对图像语义分割模型进行多次迭代训练中每次迭代训练包括：将样本图像输入图像语义分割模型，获得语义分割结果，其中，所述语义分割结果包括样本图像中各个像素点属于各个类别的概率；

根据样本图像中至少一个目标图像块中各像素点的标注结果，以及语义分割结果中与所述至少一个目标图像块对应的像素点的语义分割结果，调整图像语义分割模型的模型参数。

9.一种图像语义分割方法，其特征在于，包括：获取待分割的目标图像；

将所述目标图像输入通过如权利要求8所述的方法获得的已训练的图像语义分割模型，获得所述目标图像中各个像素点所属的类别。

10.如权利要求9所述的方法，其特征在于，所述目标图像为游戏场景图像；在所述获得所述目标图像中各个像素点所属的类别之后，所述方法还包括：根据所述游戏场景图像中各个像素点所属的游戏场景物品类别，控制人工智能游戏角色移动至预设的游戏场景物品类别相应的位置，以执行相应的任务。

11.一种图像标注方法，其特征在于，包括：划分模块，用于将待标注的样本图像划分为多个图像块；确定模块，用于分别在所述多个图像块中，确定出具有边缘特征的边缘像素点；筛选模块，用于从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块；

标注模块，用于对所述至少一个目标图像块中各像素点进行类别标注，获得所述样本图像的标注结果，所述标注结果用于训练图像语义分割模型。

12.一种图像语义分割模型训练装置，其特征在于，包括：获取模块，用于通过前文任一的图像标注方法，获得样本图像的标注结果；训练模块，用于根据样本图像，对图像语义分割模型进行多次迭代训练；获得模块，用于直到图像语义分割模型收敛，获得已训练的图像语义分割模型；其中，训练模块用于执行如下过程，以实现对图像语义分割模型进行多次迭代训练中每次迭代训练：

将样本图像输入图像语义分割模型，获得语义分割结果，其中，所述语义分割结果包括样本图像中各个像素点属于各个类别的概率；

13.一种图像语义分割装置，其特征在于，包括：获取模块，用于获取待分割的目标图像；

CN 112734775 A

权　利　要　求　书

3/3页

获得模块，用于将所述目标图像输入通过前文论述的任一图像语义分割模型训练方法获得的已训练的图像语义分割模型，获得所述目标图像中各个像素点所属的类别。

14.一种计算机设备，其特征在于，包括：至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1～7或8或9～10中任一项所述的方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1～7或8或9～10中任一项所述的方法。

CN 112734775 A

说　明　书

图像标注、图像语义分割、模型训练方法及装置

1/19页

技术领域

[0001]本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种图像标注、图像语义分割、模型训练方法及装置。背景技术

[0002]目前，逐渐出现了多种图像分割模型，用于对各类图像进行分割。图像分割模型其中涉及一种重要的图像分割模型，即图像语义分割模型。图像语义分割模型一般是对图像进行像素级的类别，可以对图像进行精细的分割。

[0003]图像语义分割模型大多都是采用监督学习得到，即需要大量的样本图像对图像语义分割模型进行训练，才能获得已训练的图像语义分割模型。下面以其中两种图像语义分割模型为例，对训练图像语义分割模型示例说明：[0004]一种是基于深度网络实现的语义分割方法，该方法中是以图像作为深度网络的输入，通过多个卷积层和激活层不断减小卷积特征的尺度，提取图像的深度特征，随后通过上采样层增大卷积特征的尺度，最终输出每个像素点对应不同类别的概率。该语义分割方法在模型训练阶段需要整张图像中每个像素点对应的人工语义标注结果，标注图像会耗费大量的人力成本。[0005]另外一种是基于条件生成对抗网络(Conditional Generative Adversarial Nets， CGAN)实现的语义分割方法，该方法是采用条件生成对抗网络生成语义图像，通过判别网络区分真实和生成的语义图像，真实的语义图像为人工标注的语义图像，自动学习图像转换语义图像的损失。通过自动化学习损失和人工定义损失的结合可以提升语义分割效果。该语义分割方法可以对抗学习损失函数来表达模型的训练损失，但模型在训练阶段仍需要整张图像对应的人工标注结果，标注图像的过程会耗费大量的标注成本。[0006]可见，无论采用哪一种语义分割方法，在训练模型过程中所需的图像均需要逐像素地进行人工标注，而人工标注一张样本图像会耗费至少10分钟，且训练过程需要大量标注后的图像，这样会导致标注过程的效率较低。发明内容

[0007]本申请实施例提供一种样本图像标注、图像语义分割、模型训练方法及装置，用于提高标注样本图像的效率。[0008]一方面，本申请实施例提供一种图像标注方法，包括：[0009]将待标注的样本图像划分为多个图像块；[0010]分别在所述多个图像块中，确定出具有边缘特征的边缘像素点；[0011]从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块；

[0012]对所述至少一个目标图像块进行类别标注，获得所述样本图像的标注结果。[0013]一方面，本申请实施例提供一种图像语义分割模型训练方法，包括：

CN 112734775 A[0014]

说　明　书

2/19页

通过如前文的任一图像标注方法，获得样本图像的标注结果；

[0015]根据样本图像，对图像语义分割模型进行多次迭代训练；[0016]直到图像语义分割模型收敛，获得已训练的图像语义分割模型；[0017]其中，对图像语义分割模型进行多次迭代训练中每次迭代训练包括：[0018]将样本图像输入图像语义分割模型，获得语义分割结果，其中，所述语义分割结果包括样本图像中各个像素点属于各个类别的概率；

[0019]根据样本图像中至少一个目标图像块中各像素点的标注结果，以及语义分割结果中与所述至少一个目标图像块对应的像素点的语义分割结果，调整图像语义分割模型的模型参数。

[0020]一方面，本申请实施例提供了一种图像语义分割方法，包括：[0021]获取待分割的目标图像；

[0022]将所述目标图像输入通过如前文所述的图像语义分割模型训练方法获得的已训练的图像语义分割模型，获得所述目标图像中各个像素点所属的类别。[0023]一方面，本申请实施例提供一种图像标注方法，包括：[0024]划分模块，用于将待标注的样本图像划分为多个图像块；[0025]确定模块，用于分别在所述多个图像块中，确定出具有边缘特征的边缘像素点；[0026]筛选模块，用于从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块；[0027]标注模块，获得所述样本图像的用于对所述至少一个目标图像块进行类别标注，标注结果。

[0028]在一种可能的实施例中，所述获取模块用于：所述装置还包括获取模块，[0029]所述将待标注的样本图像划分为多个图像块之前，按照预设采样间隔对样本视频进行采样，获得多个候选样本图像；[0030]在所述多个候选样本图像中，确定任意两个候选样本图像之间的相似度；[0031]若存在相似度大于预设相似度的任意两个候选样本图像，则剔除任意两个候选样本图像中的其中一个；

[0032]将剩余的候选样本图像作为待标注的样本图像。[0033]在一种可能的实施例中，所述确定模块具体用于：[0034]对所述样本图像进行灰度化处理，获得灰度化后的样本图像；[0035]对所述灰度化后的样本图像进行边缘检测处理，获得所述多个图像块中具有边缘特征的边缘像素点。

[0036]在一种可能的实施例中，所述确定模块具体用于：

[0037]将所述灰度化后的样本图像中灰度值为预设值的像素点，确定为边缘像素点。[0038]在一种可能的实施例中，所述筛选模块具体用于：[0039]确定每个图像块中包括的边缘像素点的数量，与样本图像的所有边缘像素点的总数量之间的比值；

[0040]根据每个图像块对应的比值，从所述多个图像块中确定出至少一个目标图像块。[0041]在一种可能的实施例中，所述筛选模块具体用于：[0042]将所述多个图像块的比值从大到小进行排序，将前N个比值对应的图像块确定为

CN 112734775 A

说　明　书

3/19页

目标图像块，N为预设自然数；或者，

[0043]将比值不小于预设比值的图像块确定为目标图像块；或者，[0044]以所述多个图像块的比值为随机概率，从所述多个图像块中随机选择至少一个目标图像块。

[0045]在一种可能的实施例中，所述标注模块还用于：[0046]所述从所述多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块之后，将所述至少一个目标图像块标注为第一标识，将所述多个图像块中除了所述至少一个目标图像块之外的其他图像块标注为第二标识，获得掩模图像，其中，所述第一标识和所述第二标识不同，所述掩模图像用于训练图像语义分割模型。[0047]在一种可能的实施例中，所述样本图像为具有预设行为的游戏场景图像，所述标注模块具体用于：

[0048]所述对所述至少一个目标图像块中各像素点进行类别标注，获得所述样本图像的标注结果，包括：

[0049]根据预设的多个游戏场景物品类别，标注所述游戏场景图中的至少一个目标图像块中各像素点所属的游戏场景物品，获得标注结果。[0050]一方面，本申请实施例提供一种图像语义分割模型训练装置，包括：[0051]获取模块，获得样本图像的标注结果；用于通过前文任一的图像标注方法，[0052]训练模块，用于根据样本图像，对图像语义分割模型进行多次迭代训练；[0053]获得模块，获得已训练的图像语义分割模型；用于直到图像语义分割模型收敛，[0054]其中，训练模块用于执行如下过程，以实现对图像语义分割模型进行多次迭代训练中每次迭代训练：

[0055]将样本图像输入图像语义分割模型，获得语义分割结果，其中，所述语义分割结果包括样本图像中各个像素点属于各个类别的概率；

[0056]根据样本图像中至少一个目标图像块中各像素点的标注结果，以及语义分割结果中与所述至少一个目标图像块对应的像素点的语义分割结果，调整图像语义分割模型的模型参数。

[0057]一方面，包括：本申请实施例提供一种图像语义分割装置，[0058]获取模块，用于获取待分割的目标图像；[0059]获得模块，用于将所述目标图像输入通过前文论述的任一图像语义分割模型训练方法获得的已训练的图像语义分割模型，获得所述目标图像中各个像素点所属的类别。[0060]在一种可能的实施例中，所述目标图像为游戏场景图像；所述装置还包括控制模块，所述控制模块还用于：

[0061]在所述获得所述目标图像中各个像素点所属的类别之后，根据所述目标图像中各个像素点所属的类别，控制人工智能游戏角色移动至预设的类别相应的位置，以执行相应的任务。

[0062]一方面，本申请实施例提供一种计算机设备，包括：[0063]至少一个处理器，以及

[0064]与所述至少一个处理器通信连接的存储器；[0065]其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处

CN 112734775 A

说　明　书

4/19页

理器通过执行所述存储器存储的指令实现如前文论述的任一的图像标注方法、图像语义分割模型训练方法或图像语义分割方法。

[0066]本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如前文论述的任一的图像标注方法、图像语义分割模型训练方法或图像语义分割方法。[0067]由于本申请实施例采用上述技术方案，至少具有如下技术效果：[0068]在本申请实施例中，在对样本图像进行标注时，根据样本图像的边缘信息，从样本图像的多个图像块中筛选出部分图像块，对这部分图像块进行标注，可以减少标注量，提升标注效率。且，由于是筛选的边缘信息符合一定要求的图像块，边缘信息相对较多表示图像块可能包含更多的类别信息，因此相当于筛选了样本图像中更具有价值的图像块进行标注，如此可以减少对图像语义分割模型的训练的影响。且，由于是从样本图像中筛选了部分图像块，相较于对样本图像中所有像素点均进行标注的方式，本申请实施例中的标注方式相对增加了被标注对象的不确定性，也就提升了模型训练过程中的不确定性，进而有利于提高图像语义分割模型的泛化能力。

附图说明

[0069]图1为本申请实施例提供的一种图像标注方法的应用场景示例图；[0070]图2为本申请实施例提供的一种图像标注方法的流程图；[0071]图3A为本申请实施例提供的灰度化后的样本图像的示例图；[0072]图3B为对图3A的图像进行高斯滤波后的图像的示例图；[0073]图3C为对图3A进行边缘检测后的边缘图像；

[0074]图4A为本申请实施例提供的掩模图像的示例图；[0075]图4B为对图3A所示的样本图像进行标注后的示例图；

[0076]图5为本申请实施例提供的一种图像语义分割模型训练方法的流程图；[0077]图6为本申请实施例提供的一种图像语义分割模型的结构示意图；[0078]图7为本申请实施例提供的一种图像语义分割方法的流程图；[0079]图8为本申请实施例提供的一种图像标注装置的结构示意图；

[0080]图9为本申请实施例提供的一种图像语义分割模型训练装置的结构示意图；[0081]图10为本申请实施例提供的一种图像语义分割装置的结构示意图；[0082]图11为本申请实施例提供的一种计算机设备的结构示意图一；[0083]图12为本申请实施例提供的一种计算机设备的结构示意图二；[0084]图13为本申请实施例提供的一种计算机设备的结构示意图三。

具体实施方式

[0085]为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

[0086]为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。[0087]1、人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机

CN 112734775 A

说　明　书

5/19页

控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。[0088]人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0089]2、机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。[0090]3、卷积神经网络(Convolutional Neural Network，CNN)：是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。[0091]4、通过深度网络提取得到的图像特征，包含了图像的抽象信息。深度特征：[0092]5、语义分割：根据图像中每个像素所属的感兴趣对象，为其分配对应类别标签。[0093]6、语义图像：为图像中每个像素分配了类别便签后得到的结果。[0094]7、掩模图像：在本申请实施例中用于表示图像中被选中的图像块的图像，掩模图像例如可以采用二值图像，二值图像包括第一值的第一类像素点和像素值为第二值的第二类像素点，例如二值图像中一个像素点的值为0，意味着该像素点没有被选中，如果如二值图像中像素点的值为1，意味着该像素点被选中。[0095]8、条件生成对抗网络(Conditional Generative Adversarial Nets，CGAN)：在

Discriminator添GAN基础上做的一种改进，通过给原始GAN的生成器Generator和判别器

加额外的条件信息，实现条件生成模型。额外的条件信息可以是类别标签或者其它的辅助信息。

[0096]9、ImageNet数据库：包含了1000个类别的大规模数据库。[0097]10、MobileNetV2:一种常用的轻量化网络模型架构，在ImageNet数据库上进行训练，能用来提取图像特征。[0098]11、图像分类和类别：图像分类是指根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或

类别又图像中的每个像素点或区域划归为若干个类别中的某一种，以代替人的视觉判读。

可以称为分类。本申请实施例中类别可以有两个或两个以上，例如车辆、公路等。在图像语义分割模型适用于不同的场景时，对应需要标注的类别可以不同。图像中各个目标实际是由像素点构成，所谓像素的类别即对应该目标的类别。[0099]12、样本图像和目标图像：均属于图像，本申请实施例中将用于训练模型的图像称

CN 112734775 A

说　明　书

6/19页

为样本图像，将后续使用模型进行处理的图像称为目标图像。[0100]13、人工智能游戏角色：是指在游戏中利用人工智能技术控制的游戏角色，包括非玩家角色(Non‑player character，NPC)，或者玩家角色在特定的情况下，也可以被称为人工智能游戏角色，例如检测到玩家在预设时长内未对玩家角色进行控制操作时，可以利用人工智能技术控制玩家角色，以执行游戏任务等。[0101]14、边缘信息和边缘像素点：边缘信息用于描述图像中像素点其邻域像素点灰度变化不连续的像素点的信息，这些像素点其邻域像素点灰度变化不连续的像素点即为边缘像素点，边缘信息具体可以包括各边缘像素点的灰度值，以及各边缘素点组成的形状等。边缘广泛存在于物体与背景之间、物体与物体之间。可以通过图像边缘检测获得图像中的边缘信息。

[0102]为了提高样本图像的标注效率，本申请实施例提供一种图像标注方案，该方案获取样本图像的边缘信息，基于边缘信息从样本图像中选择部分图像块，对选择出的部分图像块进行类别标注，通过这样的方式可以减少标注量，提升标注效率，并降低人力成本。同时，选择出的部分图像块包括边缘特征较为丰富的图像块，边缘特征丰富表示具有丰富类别信息的可能性较大，因此筛选具有边缘特征的边缘像素点满足一定条件的图像块进行标注，可以使得被标注的图像块具有较多的类别信息，后续不会影响模型训练的准确性。另外，由于该方式中没有对样本图像进行所有像素点进行标注，增加标注后的样本图像的随机性，可以避免训练后的模型出现过拟合情况，提升模型的泛化能力。[0103]在上述设计思想的基础上，下面对本申请实施例涉及的图像标注方法的应用场景进行介绍。

[0104]本申请实施例中标注后的样本图像可以用于训练图像语义分割模型，图像语义分割模型可以输出图像中每个像素点的类别，因此本申请实施例中的图像标注方法可以应用于任意的需要进行图像标注的场景，例如可以应用于游戏场景中，具体可以根据图像语义分割模型生成的图像分割结果，控制人工智能游戏角色，例如在枪战游戏中，通过语义分割模型对图像内容进行解析，从而提供房屋、车辆等重要目标的位置信息，人工智能游戏角色可以根据这些位置信息可以执行房屋探索和驾驶载具等游戏任务。例如，本申请实施例中的图像标注方法还可以应用于自动驾驶场景中，具体可以根据图像语义分割模型生成的图像分割结果，确定重要目标的位置信息，从而为车辆出行提供参考。[0105]请参照图1，为本申请实施例的图像标注方法应用的应用场景示意图，该场景示意图包括多个服务器和终端140。

[0106]多个服务器包括第一服务器110、第二服务器120和第三服务器130，第一服务器110用于实现样本图像标注。第二服务器120用于从第一服务器110 获取标注后的样本图像，并基于标注后的样本图像，训练图像语义分割模型。第三服务器130用于从第二服务器120获得已训练的图像语义分割模型，并使用已训练的图像语义分割模型，提供图像语义分割功能，终端140与第三服务器130之间可以相互通信，为使用图像语义分割功能的终端。其中，涉及的图像标注方法、模型训练方法以及图像语义分割方法将在下文中进行介绍。[0107]需要说明的是，图1中是以标注样本图像、训练模型以及实现图像语义分割通过服务器实现为例，实际上也可以通过终端实现相应的功能。另外，图1 中是以标注样本图像、训练模型以及实现图像语义分割通过三个不同的设备实现，实际上也可以通过一个或两个

CN 112734775 A

说　明　书

7/19页

设备实现，本申请对此不做限制。[0108]另外，终端140和第三服务器130之间可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不做限制。另外，终端140还可以安装有客户端141，客户端141与第三服务器130之间相互通信，以实现相应的图像语义分割功能。[0109]例如，客户端141为游戏客户端，第三服务器130可以根据已训练的图像语义分割模型，控制人工智能游戏角色执行相应的任务，并实时更新游戏画面，并将更新后的游戏画面发送给终端140，终端140接收并呈现。或者，例如，第三服务器可以利用控制人工智能游戏角色，对游戏应用进行测试，将测试结果发送给终端140。[0110]其中，上述中的终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、游戏设备、智能电视、智能手环等，但并不局限于此。第一服务器110、第二服务器120和第三服务器130均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network， CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。[0111]在前文论述的应用场景的基础上，下面以第一服务器实现图像标注方法为例，对本申请实施例涉及的图像标注方法进行介绍。[0112]请参照图2，该方法包括：为本申请实施例提供的一种图像标注方法的流程图，[0113]S201，第一服务器将待标注的样本图像划分为多个图像块。[0114]第一服务器可以获得一个或多个样本图像，每个样本图像的处理过程相同，本申请实施例中以对标注一个样本图像为例，对标注样本图像的过程进行介绍。[0115]第一服务器获得样本图像之后，第一服务器可以将样本图像划分为多个图像块，可以按照固定大小划将样本图像划分为多个大小相同的图像块，或者第一服务器可以按照固定数量，将样本图像划分为固定数量的多个图像块，其中任意两个图像块的大小可以相同，也可以不同，本申请不限制划分样本图像的具体方式。[0116]S202，第一服务器分别在多个图像块中，确定具有边缘特征的边缘像素点。[0117]第一服务器可以检测样本图像的边缘信息，根据边缘信息，确定样本图像中具有

对应也就确定了每个图像块中包括的边缘像素点。边缘像素点可边缘特征的边缘像素点，

以理解为像素值变化较大的像素点。[0118]S203，第一服务器从多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块。

[0119]第一服务器可以根据每个图像块包含的边缘像素点的数量情况，从多个图像块中筛选出一个或多个目标图像块。例如，第一服务器可以从多个图像块中筛选出边缘像素点的数量较多的图像块作为目标图像块。[0120]S204，第一服务器对至少一个目标图像块进行类别标注，获得样本图像的标注结果。

[0121]第一服务器在获得至少一个目标图像块之后，可以对筛选出的至少一个目标图像进行类别标注。例如，第一服务器可以是根据用户的输入信息，获得每个目标图像块中各个像素点的类别标注结果。或者例如，第一服务器可以自动识别每个目标图像块中所有像素点的类别标注结果，从而获得样本图像的标注结果。

CN 112734775 A[0122]

说　明　书

8/19页

第一服务器可以根据标注结果训练图像语义分割模型，或者将标注结果以及样本

图像一并发送给其他设备，以便于其他设备可以根据样本图像以及标注结果，训练图像语义分割模型。

[0123]在本申请实施例中，可以检测样本图像中的边缘信息，生成图像边缘，基于边缘信息去挑选需要标注的目标图像块，后续对这些目标图像块进行人工标注，降低了每个样本图像的标注量，提高了标注效率。且，由于边缘的两侧很有可能为不同类别的物体，因此基于边缘信息挑选目标图像块，可以挑选出包含类别数量更多的目标图像块，相对保证了后续训练模型的准确性。

[0124]下面在图2的实施例的基础上，对各个步骤的具体实施方式进行介绍：[0125]第一服务器在执行在S201之前，需要先获取样本图像，下面对第一服务器获取样本图像的方式进行示例介绍：[0126]方式一、第一服务器可以从网络中筛选自身需要的图像作为样本图像。[0127]第一服务器可以基于筛选规则，从网络中筛选自身所需的样本图像，筛选规则可以有多种，例如图像质量筛选规则、图像场景筛选规则中的一种或两种。图像质量筛选是指筛选出图像质量符合一定要求的图像，图像质量可以包括图像清晰度和色彩饱和度等一种或两种，图像场景筛选是指根据图像涉及的场景，筛选符合目标场景的图像。目标场景可以为图像语义分割模型的应用场景，例如，图像语义分割模型应用于游戏场景中，那么第一服务器可以从网络上筛选与游戏相关的图像作为样本图像。[0128]方式二：第一服务器可以从其它设备中获取样本图像。[0129]具体地，第一服务器可以根据图像语义分割模型的应用场景，从与该应用场景相关设备获取样本图像，例如图像语义分割模型应用于游戏场景中，那么第一服务器可以从游戏相关的后台服务器设备获取样本图像。[0130]方式三，第一服务器结合上述方式一和方式二，获取样本图像。[0131]无论第一服务器采用哪种方式获取样本图像，第一服务器直接获取的可能是样本视频，因此在本申请实施例中，第一服务器可以从样本视频中筛选出样本图像。[0132]例如，第一服务器对样本视频进行随机采样，获得样本图像。[0133]或者，第一服务器可以按照预设采样间隔，对样本视频进行采样，以获得多个候选图像，第一服务器可以直接将多个候选图像作为样本图像，可以简单快速获得样本图像。[0134]为了提高生成样本图像的有效性，进一步地，第一服务器可以筛掉多个候选图像中相似度较高的候选图像，以获得样本图像。[0135]具体来说，第一服务器在获得多个样本图像之后，可以确定每两个样本图像之间的相似度，例如分别提取两个样本图像各自的图像特征向量，计算两个图像特征向量之间的相似度，具体可以以两个图像特征向量之间的余弦相似度或者欧式距离来表征两个图像特征向量之间的相似度。在获得每两个样本图像之间的相似度之后，如果存在相似度大于预设相似度的任意两个候选图像，则踢除其中一个候选图像，剔除可以理解为删除该候选图像，不将此作为样本图像，以此类推，将剩余的候选图像作为待标注的样本图像。预设相似度为预设的一个相似度阈值，具体取值可以根据需求设置，例如取值为0.9。[0136]在本申请实施例中，可以筛选掉相似度较高的候选图像，可以避免采用相似度较高的候选图像对模型进行训练所导致的模型过拟合的情况。

CN 112734775 A[0137]

说　明　书

9/19页

例如，预设相似度为0.9，候选图像包括图像A、B和C、D四张图，A和B之间的相似度

为0.95，B和C之间的相似度为0.2，C和D之间的相似度为 0.91，A和D之间的相似度为0.3，第一服务器确定A和图之间的相似度大于预设相似度，C和D之间的相似度大于预设相似度，第一服务器可以剔除A 和C，并将剩余的B和D作为样本图像。[0138]在获得样本图像之后，第一服务器可以对样本图像进行划分，以获得多个图像块，划分方式可以参照前文论述的内容，此处不再赘述。在获得多个图像块之后，执行S202的过程，下面对执行S202的实现方式进行示例介绍：

[0139]第一服务器可以对样本图像进行灰度化处理，获得灰度化后的样本图像，进而提取灰度化后的样本图像进行边缘检测处理，获得多个图像块中具有边缘特征的边缘点。[0140]例如，请参照图3A，为对样本图像进行灰度化处理后的示例图。[0141]具体的，第一服务器可以将样本图像转换为灰度图，再基于预设边缘检测算法提取图像的边缘信息，预设边缘检测算法例如canny边缘检测算法，下面以canny边缘检测算法为例对边缘检测过程进行示例介绍：[0142]S1.1：对灰度化后的样本图像进行高斯滤波。

[0143]高斯滤波的主要目的是降低灰度化后的样本图像的噪音。对灰度化后的样本图像进行高斯滤波，实际上可以理解为对灰度化后的样本图像进行加权平均，也就是说，将灰度化后的样本图像中每个像素点的灰度值，用该像素点和该像素点的邻域内的其他像素点的灰度值经过加权平均后得到。高斯滤波由于对灰度化后的样本图像中各像素点的灰度值进行了加权平均，从而滤掉图像中一些噪声，使得灰度化的样本图像中的整体轮廓相对模糊，使得处理后的图像整体更为平滑，也就相对增加了轮廓的宽度。[0144]继续沿用图3A所示的例子，对图3A所示的样本图像进行高斯滤波后，得到如图3B所示的示例图，图3B相较于图3A所示，图像整体线条更为平滑。[0145]S1.2：计算高斯滤波后的图像中梯度值以及梯度方向。[0146]边缘可以理解为灰度值变化较大的像素点的集合，例如一道为黑边，一道为白边，那么黑边和白边之间的部分一般为边缘，在具体实施时，可以检测灰度值变化，从而找出图像中的边缘，其中可以用梯度值来表示灰度值的变化程度，以梯度方向表示灰度值的变化方向。其中，梯度值和梯度方向可以通过如下公式计算：

[0147]

[0148]

其中，Gx表示横向边缘检测得到的灰度值，Gy表示纵向边缘检测得到的灰度值，G为灰度值的变化程度，θ表示梯度方向。[0150]S1.3：过滤非最大值。[0151]在S1.1中，由于图像中的轮廓宽度实际都被放大，这样可能会影响检测边缘的准确性，因此S1.3主要是用于筛掉本不属于边缘的像素点。[0152]具体来说，如果第一服务器确定像素点在梯度方向上的梯度值是最大的，则确定该像素点属于疑似边缘像素点；如果确定像素点在梯度方向上的梯度值并不是最大，那么

[0149]

CN 112734775 A

说　明　书

10/19页

确定该像素点不是边缘像素点，以此类推，从而排除一些不属于边缘的像素点。疑似边缘像素点可以理解为初步认定为边缘像素点，但可以进一步进行确定。[0153]在一种可能的实施例中，第一服务器可以直接将疑似边缘像素点作为边缘像素点，从而获得灰度化后的样本图像中的边缘像素点。[0154]S1.4：使用上限阈值确定边缘。[0155]为了确定出更准确的边缘像素点，在本申请实施例中第一服务器还可以通过高阈值和低阈值，进一步对S1.3中疑似边缘像素点进行筛选。其中，高阈值大于低阈值。[0156]具体来说，第一服务器如果确定疑似边缘像素点的梯度值大于高阈值，则确定疑似边缘像素点为边缘像素点；如果确定疑似边缘像素点的梯度值小于高阈值但大于低阈值，则确定该疑似边缘像素点属于边缘像素点；如果确定疑似边缘像素点的梯度值小于或等于低阈值，则确定该疑似边缘像素点不属于边缘像素点。如此一来，第一服务器便可以确定灰度化后的样本图像中的所有边缘像素点，从而可以获得边缘图像。边缘图像可以理解为标识有边缘像素点和非边缘像素点的图像。非边缘像素点可以理解为图像中不属于边缘像素点的像素点。

[0157]第一服务器在获得边缘图像之后，进而根据边缘像素点的灰度值确定出边缘像素点，例如像素点的灰度值为预设值的属于边缘像素点。在获得边缘图像之后，第一服务器自然能够确定每个图像块包括的边缘像素点的数量。需要说明的是，每个图像块包括的边缘像素点的数量可以是0、1、或多个。

[0158]继续沿用图3A～图3B所示的例子，第一服务器在对样本图像进行处理，获得如图3C所示的边缘图像，在图3C中黑色线条则对应为边缘。

[0159]在确定每个图像块包括的边缘像素点的数量之后，可以执行S203，第一服务器可以从多个图像块中确定出目标图像块，下面对S203的具体实施方式进行介绍：[0160]具体来说，第一服务器可以确定每个图像块包括的边缘像素点，计算每个图像块中包括的边缘像素点与样本图像中所有边缘像素点的比值，从而根据每个图像块的比值，确定至少一个目标图像块。

[0161]下面对计算比值的公式进行示例介绍：

[0162]

其中，Pi表示第i个图像块对应的比值，代表第i个网格中包含的边缘像素点的数

量，D表示样本图像包括的多个图像块的数量，例如样本图像划分了16 个图像块，那么该D的取值为16，n依次从1取到D。

[0164]在第一服务器确定每个图像块对应的比值之后，可以根据比值确定至少一个目标图像块，具体确定方法有多种，下面进行示例介绍：[0165]确定方法一、将多个图像块对应的比值从大到小排序，将前N个比值对应的图像块确定为目标图像块。

[0166]第一服务器确定多个图像块对应的比值之后，可以将这多个比值从到小进行排序，从而获得排序后的多个比值，从排序后的多个比值中确定靠前的N个比值，将这N个比值对应的图像块确定为目标图像块。

[0167]本申请实施例中从多个图像块中确定比值相对较大的图像块作为目标图像，确定

[0163]

CN 112734775 A

说　明　书

11/19页

方式相对简单，且由于比值较大的图像块表示该图像块中边缘像素点较多，而边缘两侧更可能是不同类别的物体，因此边缘像素点越多表示该图像块中的类别信息相对较多，因此可以获得类别信息更为丰富的图像块，以便于后续训练图像语义分割模型。[0168]其中，N为预设自然数。作为一种实施例，N可以根据样本图像包括的图像块的数量进行设置，例如N可以设置为多个图像块的数量的一半，这样可以使得确定出的目标图像块的数量相对合理。[0169]确定方法二、将比值不小于预设比值的图像块确定为目标图像块。[0170]第一服务器可以设置有预设比值，该预设比值可以根据样本图像实际情况设置，第一服务器在确定多个图像块中每个图像块的比值之后，可以将比值大于或等于预设比值的图像块确定为目标图像块。[0171]在本申请实施例中，以预设比值来确定目标图像块，在保证确定出的目标图像块的边缘像素点更多的情况下，还能使得确定出的目标图像块的数量灵活性更高，尽可能地保留了包含边缘像素点较多的图像块。[0172]确定方法三、以多个图像块的比值为随机概率，从多个图像块中随机选择至少一个目标图像块。

[0173]第一服务器可以将每个图像块的比值作为该图像块的随机概率，进而根据多个图像块各自对应的随机概率，从多个图像块中随机出至少一个目标图像块。在随机至少一个目标图像块时，第一服务器可以设置预设数量，以随机出预设数量的至少一个目标图像块。[0174]在本申请实施例中，第一服务器是以比值为随机概率，从多个图像块中随机出目标图像块，这样可以随机出边缘像素点较多的图像块的可能性更大，但又不是直接选择边缘像素点较多的图像块，从而使得筛选目标图像块具有一定的随机性，有利于避免后期图像语义分割模型过拟合的情况。

[0175]在获得至少一个目标图像块之后，为了便于后续确定哪些为目标图像块，哪些是没有选中的图像块，因此在本申请实施例中，第一服务器可以对样本图像中的目标图像块进行标注，以便于后续识别哪些为目标图像块。[0176]具体来说，第一服务器可以在至少一个目标图像块标注上第一标识，可以理解为将至少一个目标图像块中每个目标图像块中各个像素点均标注有第一标识，将多个图像块中除了至少一个目标图像块之外的其他图像块标注为第二标识，从而获得掩模图像。[0177]第一标识和第二标识属于不同的标识，第一标识和第二标识可以是属于同类型，但属于同个类型下的不同标识，例如第一标识和第二标识均采用颜色表示，具体例如第一标识为白色，白色具体可以“1”表示，第二标识为黑色，黑色具体可以以“0”表示。第一标识和第二标识属于同类型，可以便于后续设备解析该掩模图像。第一标识和第二标识也可以属于不同的类型，本申请不对此进行限制。[0178]例如，继续沿用图3A所示的例子，第一服务器确定样本图像中的目标图像块，第一服务器对样本图像进行标注，从而获得图4A中所示的掩模图像，其中目标图像块被标注为白色，多个图像块中除了目标图像块之外的其他图像块被标注为黑色。[0179]第一服务器在确定目标图像块之后，可以执行S204，下面以第一服务器标注一个目标图像块中各个像素点的类别为例，对至少一个目标图像块进行类别标注的过程进行示例介绍：

CN 112734775 A[0180]

说　明　书

12/19页

第一服务器可以根据用户的输入信息，获得一个目标图像块中各个像素点的类

别，该输入信息包括各个像素点对应的类别，例如用户进行各个像素点的类别的标注操作，第一服务器根据该标注操作，获得输入信息，从而获得各个像素点的类别。或者，第一服务器可以自动识别各个像素点的类别，对各个像素点进行标注，例如第一服务器可以根据样本图像的边缘信息，根据边缘信息匹配出样本图像中各个目标，从而对各个像素点进行标注。

[0181]其中，标注的类别可以是两个或两个以上，标注的类别可以是第一服务器根据需求设置的，类别例如为桥梁、人、草地、树木、房子、背景、门和窗等。[0182]无论第一服务器采用哪种方式进行标注，第一服务器标注每个像素点时，对属于不同类别的像素点进行标注的方式有多种，例如第一服务器可以以不同颜色对不同类别的像素点进行标注，也可以以不同颜色深浅程度来对不同类别的像素点进行标注，也可以以不同透明度区分来对不同类别的像素点进行标注，或者也可以以不同标号来对不同类别的

本申请实施例不对此进行限制。像素点进行标注等，

[0183]例如，继续沿用图3A所示的例子，第一服务器在筛选出图3A所示的灰度化后的样本图像中的目标图像块之后，第一服务器可以选中的目标图像块进行标注，从而获得如图4A所示的掩模图像，在图4A中的掩模图像中白色对应的为目标图像块。进一步地，第一服务器可以对目标图像块中各像素点进行标注，具体为属于不同类别的像素点集合标注上与类别对应的序号，从而获得如图4B所示的标注结果，请参照图4B，其中序号①对应的像素点属于桥梁，序号②对应的像素点属于车辆，序号③对应的像素点属于人。结合图4B，可以看出本申请实施例中的方法可以无需对整个图像进行标注，从而减少标注量。[0184]上述是对处理一个样本图像的过程进行示例介绍，但在实际实施时，第一服务器可以对多个样本图像中每个样本图像均执行前文的样本图像标注过程，以获得每个样本图像对应的标注结果，这些样本图像后续均可以用于图像语义分割模型的训练。[0185]在图2所示的实施例中，在对样本图像进行标注时，并不会对样本图像中每个像素点均进行标注，而是将样本图像划分为多个图像块，进而选择边缘信息较为丰富的图像块，对这些被选中的目标图像块进行标注，这样可以相对减少标注样本图像过程中的标注量。且，由于筛选的是边缘信息较多的图像块，边缘信息更丰富表示图像块包含的类别信息更丰富，这样可以在减少标注量的，且由于样本图像中图像块的信息本身就存在一定的冗余，因此即使不对所有图像块进行标注，也不会影响后期图像语义分割模型训练的准确性。进一步地，由于选择的图像块可能并不包含完整的目标，这样可以避免图像语义分割模型的过拟合训练，提升图像语义分割模型地泛化能力。[0186]另外，经过试验验证，本申请实施例减少50％以上的标注量，且不会降低图像义分割的效果。

[0187]为了更清楚地说明本申请实施例中的图像标注方法，下面以图像语义分割模型应用于游戏场景中的枪战场景为例，对本申请实施例中的图像标注方法进行示例介绍。[0188]S2.1、第一服务器获取枪战游戏图像。[0189]获取枪战游戏对应的样本视频，从样本视频中采集标注的枪战游戏图像，采样的频率为5秒一帧，这样做的目的是避免图像之间的相似度过高。[0190]进一步地，在获取枪战游戏图像后，还可以筛选掉相似度过高的枪战游戏图像，进

CN 112734775 A

说　明　书

13/19页

而获得样本图像，样本图像具体可以为5000张以上的枪战游戏图像。筛选掉相似度过高的枪战游戏图像的方式可以参照前文论述的内容，此处不再赘述。[0191]S2.2、第一服务器提取图像边缘。

[0192]第一服务器在获得枪战游戏图像之后，可以对枪战游戏图像进行预处理，具体对提取枪战游戏图像中的边缘信息，边缘信息可以理解为物体的轮廓信息，因为边缘的两侧通常是不同类别的目标，因此边缘信息可以辅助后续从枪战游戏图像中挑选图像块。[0193]具体的，第一服务器可以将枪战游戏图像进行灰度处理，基于canny边缘检测算法提取灰度化后的枪战游戏图像的边缘，从而获得边缘图像，该边缘图像中物体边缘的像素值为1，非边缘对应的像素值为0。[0194]S2.3、第一服务器确定目标图像块。[0195]第一服务器得到边缘图像之后，例如划分可以将枪战游戏图像划分多个图像块，为4×4的图像块，即划分为16个图像块，并计算每个图像块中包含的边缘像素点的个数，边缘像素点具体为边缘点是边缘图像中像素值为1的像素点。第一服务器再根据每个图像块边缘像素点点的个数计算该图像块被挑选的随机概率，计算随机概率的方式可以参照前文论述的内容，此处不再赘述。

[0196]第一服务器可以根据随机概率随机选择目标图像块，例如第一服务器可以从16个图像块中选取8个图像块。

[0197]在一种可能的实施例中，第一服务器生成二值化的掩模图像。[0198]具体地，在获得目标图像块之后，可以将目标图像块中每个像素点标注为第一值，将多个图像块中其他图像块标注为第二值，生成掩模图像。[0199]S2.4、标注目标图像块。

[0200]第一服务器可以根据人工输入的目标图像块的每个像素的类别标签，从而对目标图像块中各个像素点进行类别标注，需要标注的类别具体为：人、草地、树木、房子、背景、门、窗。例如，从16个图像块中筛选了8个目标图像块，如此一来，只需对8个目标图像块进行标注，减少了50％的标注量，降低标注的人力成本。[0201]基于上述图像标注方法，本申请实施例提供一种图像语义分割模型训练方法，下面以第二服务器执行该方法为例，并结合图5所示的一种图像语义分割模型训练方法的流程图进行介绍：[0202]S501，第二服务器获得样本图像的标注结果。[0203]第二服务器可以从第一服务器获得样本图像，以及样本图像的标注结果，还可以获得掩模图像等。或者，第二服务器也可以通过前文论述的图像标注方法，从而获得样本图像的标注结果。获得样本图像的标注结果的具体过程可以参照前文论述的内容，此处不再赘述。

[0204]应当说明的是，第二服务器可以通过上述方式获得多个样本图像中每个样本图像的标注结果，从而多个样本图像以及每个样本图像的标注结果进行图像语义分割模型的训练。

[0205]S502，第二服务器根据样本图像，对图像语义分割模型进行多次迭代训练。[0206]第二服务器可以对图像语义分割模型进行多次迭代训练，每次迭代训练的过程相类似，下面对一次迭代训练的过程进行介绍：

CN 112734775 A[0207]

说　明　书

14/19页

S3.1第二服务器将样本图像输入图像语义分割模型，获得语义分割结果。

[0208]第二服务器在一次迭代训练中可以输入一批样本图像，一批样本图像的数量例如为一个或多个，具体可以是第二服务器根据训练需求设置的，每次迭代训练输入的一批样本图像的数量可以相同，也可以不相同。[0209]当输入的一批样本图像为多个时，那么图像语义分割模型可以分别输出每个样本图像的语义分割结果，每个样本图像对应的语义分割结果包括样本图像中各个像素点属于各个类别的概率。例如类别总共包括7个，那么图像语义分割模型可以输出每个像素点分别属于7个类别的概率。[0210]S3.2，第二服务器根据标注结果，以及语义分割结果，调整图像语义分割模型的模型参数。

[0211]第二服务器在获得样本图像的语义分割结果之后，可以根据样本图像中至少一个目标图像块中各像素点的标注结果，以及语义分割结果中与至少一个目标图像块对应的像素点的语义分割结果，进而调整图像语义分割模型的模型参数。第二服务器可以根据样本图像中类别标注对应的像素点所在的位置，对应确定出样本图像中像素点对应的语义分割结果，或者第二服务器可以从第一服务器获得掩模图像，由于掩模图像包含了目标图像块的位置信息，因此第二服务器可以基于该掩模图像，从而确定目标图像块的位置。[0212]其中，涉及到具体如何调整图像语义分割模型的模型参数，下面进行示例说明：[0213]第二服务器可以根据样本图像中至少一个目标图像块中各像素点的标注结果，以及语义分割结果中与至少一个目标图像块对应的像素点的语义分割结果，确定损失函数的取值，进而根据损失函数的取值，调整图像语义分割模型的模型参数，以减少标注结果与图像语义分割模型的语义分割结果之间的差异。[0214]其中，损失函数的表达方式有多种，例如可以采用如下式所示的损失函数：

[0215]

[0216]

其中，K表示本次输入图像语义分割模型的样本图像的数量，P为样本图像包括的像素点的总数，C为类别的总数量，mi,p为第i个样本图像对应的掩模图像中第p个像素点对应的值，

为第i个样本图像中第p个像素点属于第c个类别的概率，yi,p,c为第i个样本图

像中第p个像素点属于第c个类别的标注结果，如果第p个像素点对应的类别为c，则yi,p,c为1，否则yi,p,c取值为0。[0217]S503，直到图像语义分割模型收敛，获得已训练的图像语义分割模型。[0218]对图像语义模型进行多次迭代训练时，如果图像语义分割模型收敛，则确定训练完成，获得已训练的图像语义分割模型。图像语义分割模型收敛可以是损失函数的取值小

本申请不对收敛的具体条件进行限制。于损失阈值，或者迭代次数达到预设次数等，

[0219]在本申请实施例中，以目标图像块具有类别标注的样本图像，对图像语义分割模型进行训练，可以减少样本图像的标注量，另外由于样本图像中只有部分图像块具有标注结果，因此计算损失函数时，无需计算样本图像中各个像素点的损失，而是标注的部分图像块中各个像素点的损失，相对能够减少计算量。且，由于本申请实施例中没有对样本图像中

CN 112734775 A

说　明　书

15/19页

所有像素点进行标注，因此降低图像语义分割模型过拟合的可能性，使得训练后的语义分割模型的泛化性能更好。[0220]作为一种实施例，请参照图6，该图像语义分割模型包括特征提取模块和类别输出模块，下面结合图6所示的模型结构，对图像语义分割模型输出语义分割结果的过程进行示例介绍：

[0221]特征提取模块用于提取样本图像的深度特征，类别输出模块用于根据深度特征，输出样本图像属于各个类别的概率。[0222]请继续参照图6，该特征提取模块可以通过MobileNet网络实现，MobileNet 网络具体例如MobileNet V2。MobileNet V2可以采用ImageNet数据库中的图像进行预训练。类别输出模块可以通过卷积层、激活层和上采样层实现，具体包括如图6依次连接的第一激活层、第一卷积层、第二激活层、第二卷积层、第三激活层、第一上采样层、第四激活层、第二上采样层、第五激活层、第三上采样层、第六激活层、第四上采样层、第七激活层、第五上采样层。

[0223]具体地，MobileNet V2网络作为特征提取模块，利用其提取样本图像的卷积特征，输出相应的特征图，再通过卷积层对特征图进行卷积处理，输出特征图，由5个上采样层扩大特征图的尺度。每个上采样层对其输入的特征图中间插入零点，以扩大图像，然后对扩大后的图像进行卷积操作，进而输出扩大后的特征图，例如可以输出特征图的宽高可以变为输入的特征图的2倍。最后一个采样层，其输出通道个数为C，分别对应每个像素点属于各种类别的概率，从而获得每个像素属于不同类别的概率。[0224]例如，第二服务器可以将样本图像、标注结果和掩模图像分别处理成预设大小，例如均处理成640×360×3，其中3表示通道数。

[0225]将处理后的样本图像输入至图6所示的图像语义分割模型，经过MobileNet V2网络处理之后，获得第一特征图。

[0226]将该第一特征图依次经过第一激活层和第一卷积层，该第一卷积层的卷积核大小为4，步长为2，输出通道数为512的第二特征图。[0227]同理，该第二特征图再依次经过第二激活层和第二卷积层，获得通道数为 512的

从而获得通道数为512的第第三特征图。将第三特征图输入至第三激活层和第一上采样层，

四特征图。将第四特征图依次输入第四激活层和第二采样层，获得通道数为256的第五特征图。将第五特征图依次输入第五激活层和第三采样层，获得通道数128的第六特征图。将第七特征图依次输入第六激活层和第四采样层，获得通道数为64的第八特征图。将第八特征图与此输入第六激活层和第五采样层，获得通道数为7的语义分割图像，该语义分割图像的大小为640×360×7。

[0228]在上述图像语义分割模型训练方法的基础上，本申请实施例中还提供一种图像语义分割方法，下面以第三服务器执行该方法为例，结合图7所示图像语义分割方法的流程图进行介绍：[0229]S701，第三服务器获取待分割的目标图像。[0230]S702，第三服务器将目标图像输入已训练图像语义分割模型，获得目标图像中各个像素点所属的类别。[0231]第三服务器可以通过前文论述的图像语义分割模型训练方法对图像语义分割模

CN 112734775 A

说　明　书

16/19页

型进行训练，获得已训练的图像语义分割模型。或者，第三服务器可以从第二服务器获得已训练的图像语义分割模型。其中训练图像语义分割模型的具体过程可以参照前文论述的内容，此处不再赘述。

[0232]第三服务器可以将目标图像输入该图像语义分割模型，获得目标图像中各个像素点所属的类别，该图像语义分割模型可以输出每个像素点属于多个类别中每个类别的概率，第三服务器可以将概率最大的类别确定为该像素点的类别。[0233]在本申请实施例中，可以根据已训练的图像语义分割模型对目标图像进行语义分割，由于训练图像语义分割模型时，无需对样本图像中所有像素点进行标注，因此相对减少了图像标注量。另外，由于没有对样本图像进行完整标注，因此提高了样本图像的标注结果的不确定性，因此可以提升图像语义分割模型的处理能力，进而提升图像语义分割模型得到的分割结果的准确性。[0234]进一步地，第三服务器可以是在具体应用场景中使用该图像语义分割模型，在获得目标图像中各个像素点所属的类别之后，第三服务器可以使用目标图像中各个像素点所属的类别，以执行相应的任务。[0235]例如，第三服务器可以是在游戏应用场景中使用该图像语义分割模型，那么目标图像对应游戏场景图像，第三服务器在确定该游戏场景图像中各个像素点所属的游戏场景物品类别之后，可以控制人工智能游戏角色移动至预设的游戏场景物品类别相应的位置，从而控制人工智能游戏角色完成相应的任务，例如可以控制人工智能游戏角色执行房屋探索或者驾驶载具等任务。[0236]或者例如，第三服务器可以是在自动驾驶应用场景中使用该图像语义分割模型，那么目标图像对应为交通路线图，第三服务器在确定该交通路线图中各个像素点所属的地点之后，可以对车辆进行导航。[0237]基于同一发明构思，本申请实施例提供一种图像标注装置，该装置可以实现前文论述的第一服务器的功能，请参照图8，该装置包括：[0238]划分模块801，用于将待标注的样本图像划分为多个图像块；[0239]确定模块802，用于分别在多个图像块中，确定出具有边缘特征的边缘像素点；[0240]筛选模块803，用于从多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块；[0241]标注模块804，用于对至少一个目标图像块进行类别标注，获得样本图像的标注结果。

[0242]在一种可能的实施例中，装置还包括获取模块805，获取模块805用于：[0243]将待标注的样本图像划分为多个图像块之前，按照预设采样间隔对样本视频进行采样，获得多个候选样本图像；[0244]在多个候选样本图像中，确定任意两个候选样本图像之间的相似度；[0245]若存在相似度大于预设相似度的任意两个候选样本图像，则剔除任意两个候选样本图像中的其中一个；

[0246]将剩余的候选样本图像作为待标注的样本图像。[0247]在一种可能的实施例中，确定模块802具体用于：[0248]对样本图像进行灰度化处理，获得灰度化后的样本图像；

CN 112734775 A[0249]

说　明　书

17/19页

对灰度化后的样本图像进行边缘检测处理，获得多个图像块中具有边缘特征的边

缘像素点。

[0250]在一种可能的实施例中，确定模块802具体用于：[0251]将灰度化后的样本图像中灰度值为预设值的像素点，确定为边缘像素点。[0252]在一种可能的实施例中，筛选模块803具体用于：[0253]确定每个图像块中包括的边缘像素点的数量，与样本图像的所有边缘像素点的总数量之间的比值；

[0254]根据每个图像块对应的比值，从多个图像块中确定出至少一个目标图像块。[0255]在一种可能的实施例中，筛选模块803具体用于：[0256]将多个图像块的比值从大到小进行排序，将前N个比值对应的图像块确定为目标图像块，N为预设自然数；或者，

[0257]将比值不小于预设比值的图像块确定为目标图像块；或者，[0258]以多个图像块的比值为随机概率，从多个图像块中随机选择至少一个目标图像块。

[0259]在一种可能的实施例中，标注模块804还用于：[0260]从多个图像块中，筛选出边缘像素点的数量满足预设筛选条件的至少一个目标图像块之后，将至少一个目标图像块标注为第一标识，将多个图像块中除了至少一个目标图像块之外的其他图像块标注为第二标识，获得掩模图像，其中，第一标识和第二标识不同，掩模图像用于训练图像语义分割模型。[0261]在一种可能的实施例中，样本图像为具有预设行为的游戏场景图像，标注模块804具体用于：

[0262]根据预设的多个游戏场景物品类别，标注游戏场景图中的至少一个目标图像块中各像素点所属的游戏场景物品，获得标注结果。[0263]基于同一发明构思，本申请实施例提供一种图像语义分割模型训练装置，该装置可以用于实现前文论述的第二服务器的功能，请参照图9，该装置包括：[0264]获取模块901，用于通过前文任一的图像标注方法，获得样本图像的标注结果；[0265]训练模块902，用于根据样本图像，对图像语义分割模型进行多次迭代训练；[0266]获得模块903，用于直到图像语义分割模型收敛，获得已训练的图像语义分割模型；

[0267]其中，训练模块902用于执行如下过程，以实现对图像语义分割模型进行多次迭代训练中每次迭代训练：

[0268]将样本图像输入图像语义分割模型，获得语义分割结果，其中，语义分割结果包括样本图像中各个像素点属于各个类别的概率；

[0269]根据样本图像中至少一个目标图像块中各像素点的标注结果，以及语义分割结果中与至少一个目标图像块对应的像素点的语义分割结果，调整图像语义分割模型的模型参数。

[0270]基于同一发明构思，本申请实施例提供一种图像语义分割装置，该装置可以用于实现前文第三服务器的功能，请参照图10，该装置包括：[0271]获取模块1001，用于获取待分割的目标图像；

CN 112734775 A[0272]

说　明　书

18/19页

获得模块1002，用于将目标图像输入通过前文论述的任一图像语义分割模型训练

方法获得的已训练的图像语义分割模型，获得目标图像中各个像素点所属的类别。[0273]在一种可能的实施例中，目标图像为游戏场景图像；装置还包括控制模块 1003，控制模块1003还用于：

[0274]在获得目标图像中各个像素点所属的类别之后，根据目标图像中各个像素点所属的类别，控制人工智能游戏角色移动至预设的类别相应的位置，以执行相应的任务。[0275]基于同一发明构思，本申请实施例提供一种计算机设备，请参照图11，该计算机设备包括处理器1101和存储器1102。

[0276]处理器1101可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1102和处理器1101 之间的具体连

之间通过总线1103连接，总线接介质。本申请实施例在图11中以存储器1102和处理器1101

1103在图11中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1103可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。[0277]存储器1102可以是易失性存储器(volatile memory)，例如随机存取存储器(random‑access memory，RAM)；存储器1102也可以是非易失性存储器 (non‑volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘 (hard disk drive，HDD)或固态硬盘(solid‑state drive，SSD)、或者存储器1102 是能够用于携带或存储具有指令或

但不限于此。存储数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，

器1102可以是上述存储器的组合。[0278]处理器1101，用于调用存储器1102中存储的计算机程序时执行如前文论述的任一的图像标注方法，以及还可以用于实现图8中装置的功能，还可以用于实现前文论述的第一服务器的功能。

[0279]基于同一发明构思，本申请实施例提供一种计算机设备，请参照图12，该计算机设备包括处理器1201和存储器1202。处理器1201和存储器1202的内容可以参照前文论述的内容，此处不再赘述。[0280]其中，存储器1202中存储的计算机程序。处理器1201用于调用存储器1202 中存储的计算机程序时执行如前文论述的任一的图像语义分割模型训练方法，以及还可以用于实现图9中装置的功能，还可以用于实现前文论述的第二服务器的功能。[0281]基于同一发明构思，本申请实施例提供一种计算机设备，请参照图13，该计算机设备包括处理器1301和存储器1302。处理器1301和存储器1302的内容可以参照前文论述的内容，此处不再赘述。[0282]其中，存储器1302中存储的计算机程序。处理器1301，用于调用存储器 1302中存储的计算机程序时执行如前文论述的任一的图像语义分割方法，以及还可以用于实现图10中装置的功能，还可以用于实现前文论述的第三服务器的功能。[0283]基于同一发明构思，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述的任一的图像标注方法、图像语义分割模型训练方法或图像语义分割方法。[0284]本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序

CN 112734775 A

说　明　书

19/19页

产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0285]基于同一发明构思，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文论述的任一的图像标注方法、图像语义分割模型训练方法或图像语义分割方法。[0286]本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。[0287]或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0288]显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

CN 112734775 A

说　明　书　附　图

1/9页

图1

CN 112734775 A

说　明　书　附　图

2/9页

图2

图3A

CN 112734775 A

说　明　书　附　图

3/9页

图3B

图3C

CN 112734775 A

说　明　书　附　图

4/9页

图4A

图4B

CN 112734775 A

说　明　书　附　图

5/9页

图5

CN 112734775 A

说　明　书　附　图

6/9页

图6

CN 112734775 A

说　明　书　附　图

7/9页

图7

图8

图9

CN 112734775 A

说　明　书　附　图

8/9页

图10

图11

图12

CN 112734775 A

说　明　书　附　图

9/9页

图13

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

图像标注、图像语义分割、模型训练方法及装置[发明专利]