AI语音识别使能5G智慧家庭

   2020-07-17 聪慧网sxxjymy30
核心提示:发表于: 2020年07月17日 20时19分18秒

 

    【慧聪广电网】随着5G移动和互联网技术的发展,人机交互的要求不断深入。无论是键盘还是触控交互,都远远不能与语音相比,语音才是人类沟通和获取信息最自然的方式。对家居设备的操控从普通的按键式遥控器,到蓝牙语音遥控器,发展到现在支持拾音功能的智能语音控制,语音技术将解放人类的眼睛和双手,成为最佳人机交互模式,服务于各种业务场景。

    -融合信息类

    人们日常生活中的信息查询,已经可以通过“动动嘴”的方式实现,语音搜索方式更加便捷,日益被用户所喜爱。比如,用户在出门前,可通过语音查询交通、路况、天气信息,还可通过远场语音机顶盒实现家人之间快速方便的视频电话,用户只需对远场语音机顶盒说“我要跟**视频通话”,语音机顶盒就能自动打开电视,调出视频通话客户端,在电话簿中选择对方号码,呼出视频通话。

    -高清视音频娱乐类

    用户可直接给远场语音机顶盒“下命令”,调出想看的内容,比如用户想看“成龙的电影”,只需说出“成龙的电影”,想要切换电视频道,也可以直接说“我要看东方卫视”等,操控更简便。

    -生活提醒类

    用户需要早起赶火车,只需说“给我设一个明天早晨7点的闹钟”,床头的智能语音闹钟就能与用户确认闹钟定时,并在第二天7点开启闹钟功能;用户也可设置多个提醒,例如,交水、电、煤等生活账单的日期、还信用卡的日期等。

    -智能家居控制类

    用户可以通过语音面板控制电视机的开启和关闭,通过语音开启电灯、窗帘等智能家居设备或通过语音设置开启时间或开启条件。

    为了实现以上5G智慧家庭场景,AI智能语音技术必须要支持远场拾音、即唤即用、多轮对话交互、声纹识别等多种关键技术。

    远场拾音技术

    远场拾音主要采用麦克风阵列。麦克风阵列是由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。使用麦克风阵列而非单个麦克风,是为了在用户距离智能语音终端较远时,依然能够接收到用户的语音指令。

    麦克风阵列开始工作时,始终处于拾音状态,持续对声音信号进行采样、量化,进而对基本的信号处理,对采集语音信号进行更复杂的语音信号算法处理,得到干净的语音信号,传送到远端语音云平台,开始真正的语音交互流程。

    麦克风阵列有线性、环形和球形状之分,一般使用环状或线性麦克风阵列,目前以6麦为主流方案,也有2、4麦产品。麦克风阵列同时匹配波束成形、噪声抑制、回声消除、混响消除、自动增益、声源定位等前端声音处理技术。

    -语音检测(VoiceActivityDetection,VAD):VAD准确检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,VAD不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。

    -降噪:实际环境中存在着空调、风扇以及其他各种各样的噪声,通过算法降低噪声干扰,提高信噪比,降低后端语音识别的难度。

    -回声消除(AcousticEchoCancellation,AEC):AEC在音箱扬声器工作(播放音乐或语音)时,从麦克风中收集的语音中去除自身播放的声音信号。

    -去混响处理:在室内,语音会被墙壁等多次反射,麦克风采集到的混响对于人耳完全不是问题,但是延迟的语音叠加产生掩蔽效应,需要算法对混响声音信号进行处理。

    -声源定位(DirectionofArrivalestimation,DOA):声源定位是根据麦克风阵列收集的声音语,确定说话人的位置,用于方位灯的展示,增强交互效果。

    即唤即用技术

    唤醒模块是一个小型语音识别引擎,由于唤醒关键词识别目标单一,只需要较小的声学模型和语言模型,算法空间占用少,一般能够在本地实现。唤醒词的选择一般在3个字到5个汉字之间,4个字最佳,音节覆盖尽量差异大,尽量选择开口音,建议选择不常用词语。

    多轮对话交互

    连续交互是指用户语音唤醒智能语音后,可以连续多次与智能语音进行语音交互,无需再携带唤醒词,语音交互超过规定时间需要进行再次唤醒。

    用户的输入经过自然语言理解(NLU)模块,进入对话管理系统,该系统识别出当前的对话状态(dialoguestate),并确定下一步的对话行为(dialogueaction),包含通用模型和领域模型,前者负责处理通用的交互逻辑,后者则处理特定领域的交互逻辑(见图1)。

1

    对话状态包含持续对话所需要的各种信息,依据最新的系统和用户动作,更新对话状态,将上轮对话解析出的意图作为全局变量,带入到下一轮对话。

    多轮对话对于自然的人工交互非常重要,用户期望将人与人之间的对话模式,应用在人与机器的对话之中。

    声纹识别

    进入语音交互时代,家庭语音控制的安全性尤为重要。声纹识别有两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。家庭场景的声纹识别是对说话人辨认过程,先对说话人的声纹进行建模,在语音交互时对说话人的声纹特征进行匹配,根据说话人角色不同,提供个性化的业务体验(见图2)。

1

    分布式拾音

    各个拾音器分布在家庭每个房间中,如何协调多个拾音终端协同工作,需要支持分布式拾音能力。各个拾音设备相互发现和组网,当多个设备被激活时,中控系统根据声源分布和定位,确定用户就近设备进行响应,避免多个设备被同时唤醒应答,同时中控系统根据声源分布定位,判断控制目标并发出执行指令(见图3)。

    1

    5G智慧家庭时代,AI语音终端将会以多种形态出现,比如房间里的嵌入式智能开关面板、智能音箱、智能闹钟、机顶盒、电视机以及家电设备等,更多的终端都将具备远场智能语音和家庭网络组网能力。5G智慧家庭将会通过全场景语音覆盖、全屋语音联动打通家庭中的不同应用场景,满足更多未来智能生活的需求。

 
举报收藏 0打赏 0评论 0
 
更多>同类资讯
  • sxxjymy
    加关注0
  • 没有留下签名~~
推荐图文
推荐资讯
点击排行
网站首页  |  用户协议  |  关于我们  |  联系方式  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  浙ICP备16039256号-5  |  浙公网安备 33060302000814号