大橘财经：科大讯飞的AI科技树——从直播场景识别到智能医疗

2020-10-26 | 发布者: 腾付通 | 查看: 1423 | 评论: 0

腾付通官网整理报道：

观察者网·大橘财经讯（文/一鸣编辑/周远方）10月23日下午，在科大讯飞“全球1024开发者节”上，科大讯飞AI研究院常务副院长刘聪发表了关于“构筑AI科技树，焕新美好新生活”的主题演讲。刘聪表示，语音识别是科大讯飞的传统强项，目前其已将直播场景下复杂任务的识别效果从60%提到了85%。

科大讯飞AI研究院常务副院长刘聪

刘聪介绍，近年来，科大讯飞陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能，将语音听写从简单场景的可用做到了通用；语音转写从原来的不好不可用，做到了演讲、会议、庭审等复杂场景的好用；语音控制、命令唤醒，也从简单场景的可用，做到了复杂场景的好用。

下一步，科大讯飞将持续深耕语音识别，去挑战更加复杂的场景，去实现从语音到声音，从单纯的文字内容的识别，到音频的全场景解析。例如直播场景这样有游戏、音乐以及笑声、掌声等各种音效嘈杂的背景下，如何有针对性地提取想要的声音。

“面对这种复杂的环境，科大讯飞已经有一套全场景音频解析的整体方案。目前，我们在直播场景下一个很复杂任务上的识别效果，已经从60%提到了85%，”他表示未来相关技术会在讯飞开放平台和讯飞听见上线。

以下是刘聪演讲节选：

我们知道语音识别是讯飞的传统强项，从早期的呼叫导航到2010年我们发布了讯飞超脑语音云和输入法，开启了中文语音输入的时代；通过深度学习框架持续的迭代效果，接下来我们又陆续推出了方言识别、原厂交互、多麦克风阵列等相关的能力；2015年我们又将人机交互的场景拓展到人人对话的场景。

整体来说，我们总结出三点，我们将语音听写从简单场景的可用，做到了通用；语音转写从原来的不好不可用，做到了演讲、会议、庭审等复杂场景的好用；语音控制、命令唤醒，也从简单场景的可用，做到了复杂场景的好用。

那随着现在语音识别在更多场景的应用。我们要想一下，语音识别下一步发展的方向是什么？又有哪些技术可以从实验室场景走向成熟，还有哪些价值值得我们发掘？

首先我们认为语音识别需要持续的去挑战更加复杂的场景，去实现从语音到声音，从单纯的文字内容的识别，到音频的全场景解析。例如现在我们在泛娱乐当中，我们可以看到直播短视频有很多更加复杂的声音现象，需要我们去解决。例如在直播的过程当中，背景可能是复杂多样的，可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话，这些对我们的语音识别都会有很大的影响。除此之外，这些视频当中还会包含像笑声、掌声、各种音效这样一些其他的声音现象。

针对这样一个场景，我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面，要有针对性的将我们感兴趣的声音提取出来。这里我们展示了全场景音频解析的整体方案。首先我们通过多分辨率特征提取的声音检测方案，再结合我们的序列训练，对一些相似声音进行精细建模，可以实现将笑声、音效等非语音的声音和语音内容分离。

针对包含语音的有效内容，我们也使用了语音降噪和分离的方案，综合利用我们的声音、文本、说话等信息，以及在有条件的情况下，还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。

这些例子都是我们的真实算法、针对真实数据的一个结果。我们的算法针对这样的复杂音频，有了一个很好的处理效果，可以有针对性的提取出更多层次。目前，我们在直播场景下一个复杂任务上的识别效果，已经从60%提到了85%，未来我们相关的技术也会在我们的开放平台、讯飞听见等上线。

语音合成

接下来我们来看一下语音合成。我们知道语音合成一般是以自然通报分来作为评价指标的，其中5分是满分播音员的水平，4分是普通发音人的水平。过去我们是在中英文上，包括冰波形拼接、包括参数合成的方法上达到了普通发音人水平。

近年来，伴随着深度学习的加持，我们提出了基于听感量化的多人混合训练等合成框架，并进一步在向配音合成，然后对话合成等更有表现力的场景，做到了接近4.5分的水平。

合成技术也在持续进步，合成的一些领域，风格也是从单一向多元化发展。那么问题又来了，当我们的合成自然度已经越来越接近真人水平的时候，合成还能有哪些令人惊喜的提升呢？合成下一步发展方向又是什么？

我们要先想一下，为什么像短视频有声书这样的内容非常吸引人，因为它不仅仅是单纯的从文本找语音的生成，而是基于我们的文本、声音、画面等基本的素材，实现了全方位的包装。例如，我们的语音当中会包含角色演绎、情感切换的内容在配合上背景的音乐，各种音效，从而形成了这样一个非常生动活泼的内容。

像我们的语音合成的发展方向，同样不能只以单纯的追求自然度MOS分为目标，而是要追求用户可以感知的，同时技术可以实现的更高表现力的呈现。这里我们也可以通过从文本内容当中挖掘到角色、情感等更深层的信息。通过刚才说的音乐音效等听感的提升，以及我们多模态这样更具表现力的呈现来实现。

对应于语音识别的全场景音频解析，我们认为语音合成也需要实现从语音到声音的全场景音频合成。去年1024发布会上，我们在车载场景下使用我们的环绕音效，提升了用户听感的效果。今年我们又进一步进行了拓展，一方面，我们可以基于自然语言理解技术，从文本当中分析到合适的情感焦点以及我们角色相关的信息，并通过语音呈现出来，进一步结合我们针对一些特殊情况打造的背景音乐，从而呈现出一场全局的音频、全场的一个合成。这里我们也是以一个交互场景为例子，来看一下我们这样一个听感提升的效果，请放视频。

我们可以看到在这个例子当中，一方面它通过对内容的理解，实现一人分饰多角和情感的变化。另外一方面它能通过对场景的理解，当知道用户累的时候，可以主动的去推送这样一些舒缓的音乐和音效。这一解决方案除了在交互场景，在小说合成、配音合成等场景也大有可为。

另外我们知道情感的表达、合成和预测也是我们语音合成当中的一个重要的方向，也是业界的研究热点。但是现在我们看到业界的情感语音合成一般是输入一句文本，并指定一种情感，然后输出一段饱含情感的语音。

但我们想一下，在人与人沟通过程当中，其实情感的表达并不是这么全局化、单一化的，而是有一些细微的变化情况。我们的机器合成常被人们诟病，说这个声音没有人情味的一个表现。

针对这样一个问题，我们也是从单一的情感合成升级到面向交互场景的这样一个微情绪合成的方案。该方案也是基于我们刚才说的，通过听感量化的编码，来对我们多种情感进行组合式编码，以实现我们对局部一些情感的准确的预测和控制。在有了这样一个方案之后，我们再结合情绪识别等其他的方案，就可以在交互当中体现出一些细微的情感变化，让我们的用户用不同的语气说话的时候，可以得到一些不同的反馈，让我们整个的交互过程变得更加有趣，更加有人情味。

虚拟形象

接下来我们来看一下多模态合成，也就是虚拟形象。我们在去年发布了全球首个多语种虚拟主播小晴，大家也非常熟悉了。今年我们也是陆续发布了更多的虚拟主播，并在多家媒体使用。

今年我们为小晴进一步研发了表情生成、动作生成等技术，同时结合我们生活化场景的设计进一步的优化，让我们的小晴具备了交互的能力。当我们虚拟形象具备更好的交互能力之后，再结合我们在一些场景的静态和动态内容的嵌入，我们就有可能形成一些更加有意思的现象。

例如我们在学习机里面，基于我们的虚拟形象技术、结合我们的语音评测等技术，我们设计了一个可以实时互动的英文主播的教学，让整个英文的教学变得特别有趣。我们也来看一下演示的视频。这里面所有的内容都是合成出来的。未来我们也非常欢迎各位合作伙伴可以想一下在我们各自场景有没有什么样的需求，可以用我们的这样一些虚拟形象的技术，让大家在一些场景当中交互变得更加有意思。

上一篇：贵州茅台三季报：营收、净利增速均放缓

下一篇：抖音单独赴港上市？字节跳动回应：还没最后确定

大橘财经：科大讯飞的AI科技树——从直播场景识别到智能医疗

相关文章