当语音识别撞上方言，谁比谁懵逼？

2020-07-16 聪慧网sxxjymy30

核心提示：发表于: 2020年07月16日 12时46分00秒

慧聪安防网讯这几年，各种各样的技术和产品，就像地里的稻谷一样，火了一茬又一茬。这不，近段时间，智能音箱又开始强势崛起，巨头们纷纷瞄向智能音箱市场，引起了新一轮的血雨腥风。

这一切源于近两年智能家居开始流行的“解放双手”，在这“解放双手”的过程中语音识别是最关键的一环，有很多人断言没有语音识别的的智能家居系统都是假智能家居。人们对于语音识别未来的发展充满了信心，甚至在“语音识别”的百度百科中有这么一句话：人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。当然，小编同样是语音识别的脑残粉，对语音识别未来的发展前景充满了美好的想象。不过，在充满信心的同时，小编我不禁对一个问题充满了好奇：那些语音识别的巨头企业一直在告诉大众：我们的识别率已经达到了95%了97%了，99%了，99.9%了！看他们打了鸡血似的不断更新这个数字，真是一件可喜可贺、喜大普奔的事情。但是，小编却想歪个楼，识别率99%的语音识别搞得定方言吗？

讨论语音识别方言识别率的必要性

小编绝对不承认，这个问题的讨论仅仅是基于小编本人无处释放的无聊。所以我们就先来确定一下讨论这个问题的必要性。对于国外的情况小编不是很了解，那咱们就来探讨一下中国的方言情况。小编还记得大学时期《方言学》上课的第一天，我们那个漂亮的女教授说的第一句话就是：我想大家一定都听过“十里不同音，百里不同俗”吧。十里不同音，这就是中国的语言现状。在中国，很多的人们说着彼此几乎无法交流的语言，作为南方人小编深有感触，也许真的走出自己家的小镇，就听不懂当地人说的是什么了。普通话的普及也不过短短几十年，各种方言混杂的情况实在是太常见了。

那中国究竟有多少种方言呢？中国共有56个民族，除了回族没有自己的语言之外，其他所有民族都有自己的语言，这就有50多种，但这并不是全部，因为在各个方言区中又分布着多种土语。据不完全统计，中国至少有80种以上的语言。除此之外，由于受到方言的影响，很多人的普通话会有一定的口音存在。其实对于这一点，小编真的很有话语权啊，因为小编平时对一些企业管理者进行采访之后，用语音识别软件将录音转录出来时，小编就发现口音对于语音识别的干扰真的是非常非常大的啊。但是然并卵，小编的软件账号丢失了，所以这些记录都找不回来了，无图无真相啊。

语音识别的原理

好了，先忽略口音的问题，让我们回到方言识别这个问题。我们先来看看语音识别的技术原理，所谓语音识别，就是将一段语音信号转换成相对应的文本信息（我们这里不讨论作为安防手段的声纹识别，而是讨论以人机交互为目的的语音识别），系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来；之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

作为语音识别的前提与基础，语音信号的预处理过程至关重要。在最终进行模板匹配的时候，是将输入语音信号的特征参数同模板库中的特征参数进行对比，因此，只有在预处理阶段得到能够表征语音信号本质特征的特征参数，才能够将这些特征参数进行匹配进行识别率高的语音识别。若果让小编用一句话来进行总结就是：对语音识别来说，给它足够的数据量进行学习是关键。

语音识别的方言识别率究竟如何？

那语音识别对于方言的识别情况究竟怎么样呢？在写稿的时候，小编就近找了两个同事（一个是湖北赤壁人，一个是湖南长沙人以及小编本人是湖南邵阳人）跟我一起进行了一个简单的测试。

小编截取了这篇文章中的一段文字：那中国究竟有多少种方言呢？中国共有56个民族，除了回族没有自己的语言之外，其他所有民族都有自己的语言，这就有50多种，但这并不是全部，因为在各个方言区中有分布着多种土语。因此，据不完全统计，中国至少有80种以上的语言。

小编让同事分别用自己家乡的方言念了一遍这段话，然后用微信的语音转文字进行转写，测试结果如下：

湖南长沙同时的测试结果