一、不漏掉语音信号的每一个细节
在AI电话场景中,充分利用语音本身的丰富信息,对于人机对话体验的提升有着意想不到的效果。说话者的环境背景音,语音传递出来的情绪,打断机器人的时机,在指定场景下的专用词表达,还有从音色上体现出的性别和年龄等基础信息,都能够通过算法有效地进行量化建模。为此,AI智能专门针对语音信号处理,进行了一系列算法功能的研发:
1、环境音降噪和人声增强。噪声问题一直是语音识别领域一个老大难问题。在电话场景中,用户采用听筒模式还是免提模式,在安静的房间还是嘈杂的街边,都会对语音识别算法的最终判断产生影响。为了让机器人“听得清”,智能语音团队在Webrtc NS框架基础上,同步对环境音降噪和人声增强进行双向优化。通过对输入的语音信号进行时域和频域的傅里叶变换建模,对噪声的频谱特征进行声学特征改善,让原来受噪声影响错分类的音素落到正确的音素类别上。从而不仅能够智能识别此时通话状态是听筒模式还是免提模式,更能够将强噪、高冗余信号与人声进行分离,实现背景降噪与人声增强双模并行,有效保障了信号输入的保真性。
2、性别识别、年龄识别与情绪识别。用户的声音搭载着丰富的个人特征。性别、年龄和情绪是声音信息最能够传递的用户个人特色。通过对其音调、音色、响度的实时建模,能够帮助机器人在与用户对话过程中,审时度势,为实现机器人情景感知提供丰富的参考信息。通过实时识别用户的性别、年龄和情绪,机器人可以快速根据对话情境选择当前最适合的对话内容,以便及时引导和安抚用户。针对这三种功能需求,AI智能在大量实验基础上,比对了MFCC、Fbank和LPC三大语音特征提取算法,最终选择了MFCC+resCNN方案,在实现92%准确率的同时,也把实时识别速度控制在50ms以内,成功实现了产品的工程化,真正让机器人做到了无感式察言观色。
3、场景定制化语音识别。绝大多数智能外呼厂家,语音识别都是选择与大公司的AI算法开放平台合作。好比将大公司的语音识别能力当成了自来水供应厂,只需做好接口,语音识别结果即可像自来水一样源源不断涌现。然而,在对话能力要求愈发严格的今天,通用语音识别模型“一招鲜,吃遍天”的做法很快就看到了瓶颈。大公司的AI开放平台所能提供的能力,只能是适用通用场景的识别模型,脱离特定垂直场景和上下文何谈精准识别?为此,通过聚焦对话场景,AI智能积累了大量泛消费领域的对话数据,并针对性地训练了消费场景专有语音识别模型。相比于目前在通用场景识别主流的纯E2E模型,智能语音团队在E2E框架的基础上,提出了基于上下文文本定制增强模块的的Context-Aware Encoder算法,在模型训练过程中,使用额外补充的场景文本作为强化信息,让模型建立起针对特定输入的强化架构;通过在应用场景中的聚焦,相比于传统的CTC热词纠错功能,准确率提升近7个百分点。而在与阿里、讯飞所提供的通用识别模型实验比较中,我们AI智能提出的场景定制化语音识别能力,准确率提升近3个百分点。从而让机器人在常见的几大对话场景中,真正做到专注、专业。