一种机器人语音交互系统[发明专利]

2022-02-08 来源：好走旅游网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 109119077 A(43)申请公布日 2019.01.01

(21)申请号 201810947206.3(22)申请日 2018.08.20

(71)申请人深圳市三宝创新智能有限公司

地址 518055 广东省深圳市福田区华富街

道皇岗路5001号深业上城（南区二期）28层(72)发明人庄永军　

(74)专利代理机构深圳力拓知识产权代理有限

公司 44313

代理人龚健(51)Int.Cl.

G10L 15/22(2006.01)G10L 15/25(2013.01)G10L 15/26(2006.01)G10L 25/63(2013.01)

权利要求书2页说明书6页附图4页

(54)发明名称

一种机器人语音交互系统

(57)摘要

本发明涉及机器人领域，具体公开了一种机器人语音交互系统，所述机器人语音交互系统包括人脸图像采集装置，用于采集所述机器人视野范围内的人脸图像信息；用户语音信息采集装置，用于采集用户的语音信息；中央控制器，用于根据所述人脸图像信息以及用户的语音信息确定相应的语音输出信息；以及语音输出装置，用于输出所述确定的语音输出信息。本发明实施例通过同时采集用户的人脸图像信息以及语音信息，并根据上述信息共同确定相应的语音输出信息，使得相应的语音输出信息既能够有效地回复用户，还能满足用户的情感需求，有效地解决了现有机器人语音交互系统中存在的“机械式交流”的技术问题。

CN 109119077 ACN 109119077 A

权　利　要　求　书

1/2页

1.一种机器人语音交互系统，其特征在于，所述机器人语音交互系统包括中央控制器，与所述中央控制器通信的人脸图像采集装置、用户语音采集装置以及语音输出装置；

所述人脸图像采集装置，用于采集所述机器人视野范围内的人脸图像信息，并发送给中央控制器；

所述用户语音采集装置，用于采集用户的语音信息，并发送给中央控制器；所述中央控制器，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息；用于接受所述用户的语音信息；用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置；以及

所述语音输出装置，用于接收所述语音输出信息，并根据所述语音输出信息输出语音。2.根据权利要求1所述的系统，其特征在于，所述中央控制器还用于根据所述人脸图像信息获取与所述人脸对应的性别和年龄信息；

所述用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置，具体为：

用于根据所述人脸情绪特征信息、与所述人脸对应的性别和年龄以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置。

3.根据权利要求1所述的系统，其特征在于，所述中央控制器包括：人脸图像信息接收单元，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息；

用户语音信息接收单元，用于接收所述用户的语音信息；以及第一信息处理单元，用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置。

4.根据权利要求3所述的系统，其特征在于，所述人脸图像信息接收单元包括；人脸图像信息接收模块，用于接收所述人脸图像信息；以及人脸情绪特征信息获取模块，用于根据所述人脸图像信息与预存的标准人脸情绪图像信息与人脸情绪特征信息的对应关系，获取与所述人脸图像信息对应的人脸情绪特征信息。

5.根据权利要求3所述的系统，其特征在于，所述第一信息处理单元具体用于根据所述人脸情绪特征信息、所述用户的语音信息以及预存的语音输出信息与人脸情绪特征信息、用户的语音信息的对应关系，确定与所述人脸情绪特征信息以及用户的语音信息相对应的语音输出信息，并发送给语音输出装置。

6.根据权利要求1所述的系统，其特征在于，所述语音输出信息包括语音输出内容信息和语音输出语气信息；

所述中央控制器，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息；用于接受所述用户的语音信息；用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出内容信息和语音输出语气信息，并发送给语音输出装置；以及

所述语音输出装置，用于接收所述语音输出内容信息和语音输出语气信息，并根据所述语音输出内容信息和语音输出语气信息输出语音。

7.根据权利要求6所述的系统，其特征在于，所述中央控制器包括：人脸图像信息接收单元，用于接收所述人脸图像信息，并根据所述人脸图像信息获取

CN 109119077 A

权　利　要　求　书

2/2页

人脸情绪特征信息；

用户语音信息接收单元，用于接收所述用户的语音信息；以及第二信息处理单元，用于根据所述人脸情绪特征信息以及述用户的语音信息，确定语音输出内容信息和语音输出语气信息，并发送给语音输出装置。

8.根据权利要求7所述的系统，其特征在于，所述第二信息处理单元包括：语音输出内容信息确定模块，用于根据所述人脸情绪特征信息、所述用户的语音信息以及预存的语音输出内容信息与人脸情绪特征信息、用户的语音信息的对应关系，确定与所述人脸情绪特征信息以及用户的语音信息相对应的语音输出内容信息，并发送给语音输出装置；以及

语音输出语气信息确定模块，用于根据所述人脸情绪特征信息以及预存的语音输出语气信息与人脸情绪特征信息的对应关系，确定与所述人脸情绪特征信息相对应的语音输出语气信息，并发送给语音输出装置。

9.根据权利要求6所述的系统，其特征在于，所述语音输出装置包括：语音输出内容信息接收单元，用于接收所述语音输出内容信息；语音输出语气信息接收单元，用于接收所述语音输出语气信息；语音合成单元，用于根据所述语音输出内容信息以及所述语音输出语气信息合成相应的语音；以及

语音输出单元，用于输出所述合成的的相应的语音。

CN 109119077 A

说　明　书

一种机器人语音交互系统

1/6页

技术领域

[0001]本发明涉及机器人领域，特别是涉及一种机器人语音交互系统。

背景技术

[0002]机器人技术作为20世纪最为伟大的发明之一，目前也随着技术的不断创新，逐渐应用于各大领域之中。而人机交互技术一直都是机器人领域的重要研究课题，其中随着语音识别技术的日臻成熟，并通过预先存储的语言数据库，已经实现了机器人与人的“简单沟通”。

[0003]然而，本领域当前的语音交互系统都只注重于与用户在语言内容上的交流，而没有注重于用户情感上的需求。因此，实际中机器人与用户的交流大多都是“木讷”的，都是处于一种被动回答的形式，这样会极大地降低人机交互的趣味性。[0004]可见，现有技术中，采用语音识别系统作为机器人的语音交互系统只能够理解用户的语言内容而无法理解用户的情绪，无法满足部分用户的情感需求，同时只能够被动回答用户的问题，而无法与用户进行“拟人化的沟通”。同时由于语音交互系统的单一性，在缺少感情的基调上，很容易出现交流上的障碍。发明内容

[0005]本发明实施例提供一种机器人语音交互系统，旨在解决现有技术中采用语音识别系统作为机器人的语音交互系统中存在的无法理解用户的情绪，无法满足用户的情感需求，同时也无法与用户进行“拟人化的沟通”的技术问题。[0006]本发明实施例提供一种机器人语音交互系统，所述机器人语音交互系统包括中央控制器，与所述中央控制器通信的人脸图像采集装置、用户语音采集装置以及语音输出装置；

[0007]所述人脸图像采集装置，用于采集所述机器人视野范围内的人脸图像信息，并发送给中央控制器；

[0008]所述用户语音采集装置，用于采集用户的语音信息，并发送给中央控制器；[0009]所述中央控制器，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息；用于接受所述用户的语音信息；用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置；以及[0010]所述语音输出装置，用于接收所述语音输出信息，并根据所述语音输出信息输出语音。

[0011]本发明实施例提供的机器人语音交互系统通过用户语音信息采集装置能够获取用户的语音信息，便于机器人能够对用户的问题做出相应的回答，而人脸图像信息采集装置能够获取用户当前的情绪信息，便于机器人判断用户的情感需求，同时获取用户的语音信息以及用户当前的情绪信息，从而使得机器人能够使用更加“拟人化的口吻”对用户的问题做出相应的回答。此外，语音输出装置能够模拟输出多种不同类型的语气，从而在于用户

CN 109119077 A

说　明　书

2/6页

进行沟通时，更加的生动形象，极大地满足了用户的情感需求。

附图说明

[0012]图1是本发明实施例提供的一种机器人语音交互系统的结构示意图；[0013]图2是本发明实施例提供的中央控制器的结构示意图；

[0014]图3是本发明实施例提供的人脸图像信息接收单元的结构示意图；[0015]图4是本发明又一种实施例提供的中央控制器的结构示意图；

[0016]图5是本发明又一种实施例提供的第二信息处理单元的结构示意图；[0017]图6是本发明又一种实施例提供的语音输出装置的结构示意图；

具体实施方式

[0018]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0019]本发明实施例提供的机器人语音交互系统通过用户语音信息采集装置能够获取用户的语音信息，便于机器人能够对用户的问题做出相应的回答，而人脸图像信息采集装置能够获取用户当前的情绪信息，便于机器人判断用户的情感需求，同时获取用户的语音信息以及用户当前的情绪信息，从而使得机器人能够使用更加“拟人化的口吻”对用户的问题做出相应的回答。

[0020]图1示出了本发明实施例提供的一种机器人语音交互系统的结构示意图，详述如下。

[0021]本发明实施例提供的机器人语音交互系统，包括：[0022]人脸图像采集装置101，用于采集所述机器人视野范围内的人脸图像信息，并发送给中央控制器。

[0023]在本发明实施例中，所述人脸图像采集装置优选设置在机器人“眼部区域”，当所述人脸图像采集装置设置在机器人“眼部区域”时，可以有效的限制机器人需要正对当前交流的用户才可以采集人脸图像，避免出现机器人在与用户沟通时未正对用户的情况，使得机器人更加的拟人化。

[0024]在本发明实施例中，所述人脸图像采集装置可以是照相机、摄像机等周期性的获取人脸图像信息的装置，也可以是监视器、录影机等持续性的获取人脸图像信息的装置，还可以是其他能够将光信号转化为电信号的装置。其中，所述人脸图像采集装置优选摄像机，并周期性的对用户进行拍摄生成含有人脸图像信息的相片文件，并将所述含有人脸图像信息的相片文件发送给中央控制器。[0025]用户语音采集装置102，用于采集用户的语音信息，并发送给中央控制器。[0026]在本发明实施例中，所述用户语音采集装置优选话筒，当所述用户语音采集装置使用话筒时，能够即时的获取用户的语音信息，并即时的将所述语音信息发送给中央控制器，可以有效地提高机器人的沟通效率，也可以选择录音设备，将用户的完整的语音信息保存后并发送给中央控制器，还可以选择其他能够将声波转化为电信号的装置。[0027]作为本发明的一个实施例，所述用户语音采集装置在获取到用户的语音信息后能

CN 109119077 A

说　明　书

3/6页

够对所述用户的语音信息进行降噪处理，再将处理后的语音信息发送给中央控制器，所述降噪处理可以有效的避免中央控制器接收到受到噪音信号干扰的语音信息，能够有效地提高机器人的沟通效率。[0028]中央控制器103，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息；用于接受所述用户的语音信息；用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置。[0029]作为本发明的一个实施例，所述人脸情绪特征信息包括人脸对应的情绪信息如开心、愤怒、伤心等。

[0030]作为本发明的一个实施例，所述确定的语音输出信息与人脸情绪特征信息以及所述的用户的语音信息均有关系，以下述一个例子作简要说明：[0031]当接收到用户同样的语音信息“你好”时，如果判断用户的情绪特征信息为开心时，则输出的语音信息为“你好”，如果判断用户的情绪特征信息为难过时，则输出的语音信息为“你好，请问你怎么了”。

[0032]所述由人脸情绪特征信息以及所述的用户的语音信息共同确定的语音输出信息能够使得机器人更加智能化，拟人化，能够满足用户的情感需求，进一步的，还可以作为用户的“倾诉对象”

[0033]作为本发明的另一个实施例，所述中央控制器还用于根据所述人脸图像信息获取与所述人脸对应的性别和年龄信息。

[0034]所述中央控制器还用于根据所述人脸情绪特征信息、所述人脸对应的性别和年龄以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置。[0035]作为本发明的另一个实施例，所述确定的语音输出信息与所述人脸情绪特征信息、所述的用户的语音信息以及所述人脸对应的性别和年龄均有关系，以下述一个例子作简要说明。

[0036]当接收到用户同样的语音信息“你好”时，如果确定人脸对应的性别与年龄分别为男、青年，则输出的语音信息为“先生，你好”，如果确定人脸对应的性别与年龄分别为女、年幼时，则输出的语音信息为“小妹妹，你好”。[0037]所述由人脸情绪特征信息、所述人脸对应的性别和年龄以及所述用户的语音信息共同确定的语音输出信息进一步的使得机器人更加智能化、拟人化，同时也有利于用户与机器人进行沟通，用户能够根据机器人输出的语音信息主动判断出机器人正在沟通的对象。

[0038]作为本发明的又一个实施例，所述语音输出信息包括语音输出内容信息以及语音输出语气信息，所述语音输出语气信息包括开心的语气、安慰的语气、鼓励的语气等。[0039]作为本发明的又一个实施例，所述语音输出内容信息与人脸情绪特征信息以及所述的用户的语音信息均有关系，所述语音输出语气信息与人脸情绪特征信息有关系，以下述一个例子作简要说明。

[0040]如果确定所述人脸情绪特征为难过，需要安慰时，所述语音输出语气信息为安慰的语气。如果确定所述人脸情绪特征为低沉，需要鼓励时，所述语音输出语气信息为鼓励的语气。

[0041]语音输出装置104，用于接收所述语音输出信息，并根据所述语音输出信息输出语

CN 109119077 A

说　明　书

4/6页

音。

[0042]

在本发明实施例中，所述语音输出装置能够将电信号转化为声信号如扬声器、声

卡等。

作为本发明的一个实施例，所述语音输出装置的声音大小可以由用户主动设置，

进一步的，也可以根据获取到的人脸对应的性别和年龄或者获取的用户的语音信息自动调控声音大小，以下述一个例子作简要说明。

[0044]当获取到的人脸对应的年龄为年迈时或者获取到用户的语音信息为“你说什么”时，所述语音输出装置能够自动适当的增加音量。[0045]作为本发明的又一个实施例，当接收到语音输出内容信息以及语音输出语气信息，需要对语音输出内容信息以及语音输出语气信息进行合成，并生成具有所述语气的语音输出。

[0046]所述语音输出装置预先存储有各语音输出语气的模板，将语音输出内容信息与语音输出语气的模板合成即可生成相应语气的语音输出。

[0047]图2示出了本发明实施例提供的中央控制器的结构示例图，为了便于说明，仅示出与本发明相关的部分。

[0048]在本发明实施例中，中央控制器包括人脸图像信息接收单元201、用户语音信息接收单元202以及第一信息处理单元203。[0049]人脸图像信息接收单元201，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息。

[0050]作为本发明的另一个实施例，所述人脸图像信息接收单元还用于接收所述人脸图像信息，并根据所述人脸图像信息获取所述人脸对应的性别和年龄信息。

[0051]所述人脸对应的性别和年龄信息能够影响机器人所确定的语音输出，可以使得机器人更加智能化。[0052]用户语音信息接收单元202，用于接收所述用户的语音信息。[0053]第一信息处理单元203，用于根据所述人脸情绪特征信息以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置。[0054]作为本发明的另一个实施例，所述第一信息处理单元还用于根据所述人脸情绪特征信息、所述人脸对应的性别和年龄以及所述用户的语音信息，确定语音输出信息，并发送给语音输出装置。

[0055]图3示出了本发明实施例提供的人脸图像信息接收单元的结构示意图，为了便于说明，仅示出与本发明相关的部分。[0056]在本发明实施例中，人脸图像信息接收单元包括人脸图像信息接收模块301以及人脸情绪特征信息获取模块302。[0057]人脸图像信息接收模块301，用于接收所述人脸图像信息。[0058]人脸情绪特征信息获取模块302，用于根据所述人脸图像信息与预存的标准人脸情绪图像信息与人脸情绪特征信息的对应关系，获取与所述人脸图像信息对应的人脸情绪特征信息。

[0059]在本发明实施例中，所述人脸情绪特征信息获取模块中预先存储有标准人脸情绪图像，所述人脸情绪特征信息获取模块接收到所述人脸图像信息后，将所述人脸图像信息

[0043]

CN 109119077 A

说　明　书

5/6页

与所述预先存储有标准人脸情绪图像进行比对，并确认人脸情绪特征信息。[0060]图4示出了本发明又一种实施例提供的中央控制器的结构示意图，为了便于说明，仅示出与本发明相关的部分。[0061]本发明实施例中，中央控制器包括人脸图像信息接收单元401、用户语音信息接收单元402以及第一信息处理单元403。[0062]人脸图像信息接收单元401，用于接收所述人脸图像信息，并根据所述人脸图像信息获取人脸情绪特征信息。[0063]在本发明实施例中，所述人脸图像信息接收单元401与前述人脸图像信息接收单元201一致。[0064]用户语音信息接收单元402，用于接收所述用户的语音信息。[0065]在本发明实施例中，所述用户语音信息接收单元402与前述用户语音信息接收单元202一致。

[0066]第二信息处理单元403，用于根据所述人脸情绪特征信息以及述用户的语音信息，确定语音输出内容信息和语音输出语气信息，并发送给语音输出装置。[0067]在本发明实施例中，所述语音输出内容信息为语音输出的内容部分，所述语音输出语气信息为语音输出的语气部分。[0068]在本发明实施例中，所述语音输出内容信息与人脸情绪特征信息以及所述的用户的语音信息均有关系，所述语音输出语气信息与人脸情绪特征信息有关系。

[0069]图5示出了本发明又一种实施例提供的第二信息处理单元的结构示意图，为了便于说明，仅示出与本发明相关的部分。[0070]在本发明实施例中，第二信息处理单元包括语音输出内容信息确定模块501以及语音输出语气信息确定模块502。

[0071]语音输出内容信息确定模块501，用于根据所述人脸情绪特征信息、所述用户的语音信息以及预存的语音输出内容信息与人脸情绪特征信息、用户的语音信息的对应关系，确定与所述人脸情绪特征信息以及用户的语音信息相对应的语音输出内容信息，并发送给语音输出装置。

[0072]在本发明实施例中，所述语音输出内容信息确定模块中预先存储有语音输出内容信息与人脸情绪特征信息、用户的语音信息的对应关系，所述语音输出内容信息确定模块接收到所述人脸情绪特征信息以及所述用户的语音信息后，根据预存的语音输出内容信息与人脸情绪特征信息、用户的语音信息的对应关系，确认语音输出内容信息。[0073]语音输出语气信息确定模块502，用于根据所述人脸情绪特征信息以及预存的语音输出语气信息与人脸情绪特征信息的对应关系，确定与所述人脸情绪特征信息相对应的语音输出语气信息，并发送给语音输出装置。[0074]在本发明实施例中，所述语音输出语气信息确定模块中预先存储有语音输出语气信息与人脸情绪特征信息的对应关系，所述语音输出语气信息确定模块接收到所述人脸情绪特征信息后，根据预存的语音输出语气信息与人脸情绪特征信息的对应关系，确认语音输出语气信息。

[0075]图6示出了本发明又一种实施例提供的语音输出装置的结构示意图，为了便于说明，仅示出与本发明相关的部分。

CN 109119077 A[0076]

说　明　书

6/6页

在本发明实施例中，语音输出装置包括：

[0077]语音输出内容信息接收单元601，用于接收所述语音输出内容信息。[0078]语音输出语气信息接收单元602，用于接收所述语音输出语气信息。[0079]语音合成单元603，用于根据所述语音输出内容信息以及所述语音输出语气信息合成相应的语音。

[0080]在本发明实施例中，所述语音合成单元中预先存储有各语音输出语气的模板，将语音输出内容信息与语音输出语气的模板合成即可合成相应语气的语音输出。[0081]语音输出单元604，用于输出所述合成的的相应的语音。

[0082]本发明实施例提供的机器人语音交互系统通过用户语音信息采集装置能够获取用户的语音信息，便于机器人能够对用户的问题做出相应的回答，而人脸图像信息采集装置能够获取用户当前的情绪信息，便于机器人判断用户的情感需求，同时获取用户的语音信息以及用户当前的情绪信息，从而使得机器人能够使用更加“拟人化的口吻”对用户的问题做出相应的回答。此外，语音输出装置能够模拟输出多种不同类型的语气，从而在于用户进行沟通时，更加的生动形象，极大地满足了用户的情感需求。[0083]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

CN 109119077 A

说　明　书　附　图

1/4页

图1

图2

CN 109119077 A

说　明　书　附　图

2/4页

图3

图4

CN 109119077 A

说　明　书　附　图

3/4页

图5

CN 109119077 A

说　明　书　附　图

4/4页

图6

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种机器人语音交互系统[发明专利]