hg0088手机版开户:百度AI输入法发布全感官输入20版本,语音技术取得世界级突破

一年前,AI 的百度在北京发布了百度输入法,即百度输入法的版本。当时,百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之下,百度高级副总裁王海峰、百度语音技术部负责人高亮以及百度中文输入法负责人蔡玉婷悉数登场。王海峰向雷锋网在内的媒体表示:

百度输入法是百度技术应用的桥头堡,新的技术将会首先应用在输入法上,未来将会赋予更多能力,提升人机交互的体验。

百度输入法是百度技术应用的桥头堡,新的技术将会首先应用在输入法上,未来将会赋予更多能力,提升人机交互的体验。

新输入 全感官输入20”发布会,百度请来的主持人变成了现象级网综《吐槽大会》当家主持张绍刚,经过一年的打磨和发展,百度输入法AI探索版正式亮相, 这是一款默认输入方式为全语音输入,并调动表情、肢体等进行全感官输入的全新输入产品。

流式截断的多层注意力建模将在线语音识别精度提升了15%,并在世界范围内首次实现了基于 Attention 技术的在线语音识别服务大规模上线应用。

发布会现场,百度高级副总裁王海峰再一次重申了百度输入法是百度AI落地“桥头堡”的战略定位,也给出了输入法行业的“未来画像”,虽然目前的输入法产品主要应用于手机端,但未来的输入法将应用于各种智能设备与用户的交互,为全球用户提供更多元的输入方式。

据介绍,截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破55亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持120种语言,覆盖全球190个国家地区,并已与超过100个全球知名IP达成合作。

首先,在线语音识别领域:百度首次发布流式截断多层注意力建模,这是中文在线语音识别历史上的两个重大突破:

语音领域 Attention 模型的提出已有好几年的时间,注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。

其建模过程完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架。直接实现了语音和文本一体化的端到端建模,从而成为公认的有更高的建模精度的建模方法。

近几年,不少专家和学者都在语音识别任务中尝试了注意力模型,实验室环境下,相对于传统技术,也获得到了一系列的提升。但是截止目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。主要是因为语音识别的注意力模型存在两个问题:流式解码的问题和长句建模的精度下降问题。

针对以上问题,百度语音技术团队提出了模型,这种建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。

据介绍,SMLTA模型是基于的尖峰信息对语音流进行截断,然后在每一截断的语音小段上进行当前建模单元的注意力建模。

SMLTA 把原来的全局的整句 Attention 建模,变成了局部语音小段的 Attention 的建模。同时,为了克服模型的不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择。最终,这种建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统模型持平。

这一技术能够解决传统 Attention 模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音相对准确率提升15%,百度输入法在线语音相对准确率依然好于最优竞品15%。

迄今为止,百度语音识别模型经历了从 DNN、LSTM 和深度尖峰一代、二代的迭代再到最新的模型迭代过程,至于这种演变过程所遵循的依据是什么,高亮在接受包括雷锋网在内的媒体采访时表示:

迭代过程有一些路径可循,最开始的时候我们用做,然后过渡到 CNN,是因为并行计算的能力特别强。到后来发现,LSTM 的模型逻辑上对于我们已经说出来的语音回溯性比较强,因为它有一定的记忆能力。后来引入 CTC,更多的并不是说在模型上的改变,而是把代价函数变了。这样的话,引入尖峰就会预测得更好。这次把这种局部流式的 Attention 又给引进来,等于前后的 Correlation,也就是出来一个字以后,我再打一个字的话,根据前面输入的字来预测后者出现哪个字的准确度会进一步增强。

迭代过程有一些路径可循,最开始的时候我们用做,然后过渡到 CNN,是因为并行计算的能力特别强。到后来发现,LSTM 的模型逻辑上对于我们已经说出来的语音回溯性比较强,因为它有一定的记忆能力。后来引入 CTC,更多的并不是说在模型上的改变,而是把代价函数变了。这样的话,引入尖峰就会预测得更好。这次把这种局部流式的 Attention 又给引进来,等于前后的 Correlation,也就是出来一个字以后,我再打一个字的话,根据前面输入的字来预测后者出现哪个字的准确度会进一步增强。

其次,离线语音输入领域:过去,离线语音与在线语音相比,准确率相差悬殊,体验得不到根本解决。面对这一实际问题,百度语音技术团队优化了输入法上嵌入式识别的peak2 系统,大幅提升了离线语音识别准确率。据介绍,目前百度输入法「离线语音」输入准确率已高于行业平均水平35%。

除此之外,百度输入法还推出了「中英自由说」、「方言自由说」功能,前者可以实现在完全不影响中文语音输入准确率的情况下,高精准的中英文混合语音识输入;后者将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入。

“拍立活”功能可以让用户通过自己的动作“驱动”偶像或宠物做出相同表情;发布会现场,百度特意邀请来了网红“发际线哥”演示了该项功能。

“秀场”功能采取图像分割技术,配合360度全景动态素材,可以将人物置身于虚拟场景,增加创作表情时的场景感,用户提供了更加丰富、生活的表达方式。

同时,百度输入法AI探索版开辟了“表情秀”社区,用户可以把自制好玩的AR表情直接分享到社区,被点赞最多的表情制作者会被给予“表情帝”的封号,并会阶段性给予奖励。目前“表情秀”社区已经有多个明星、以及民间高手入驻。

凌空手写。雷锋网编辑现场观察到,工作人员在没有任何实体触控点的空中用手指写出了“凌空手写”几个字,又将主持人张绍刚的名字也打了出来。

据介绍,凌空手写是一种全新的文字识别技术,区别于其它正在实验室中的类似技术,它不需要特殊的手写笔,也不需要类似深度摄像头或多目摄像头等硬件支持。只需要最普通的摄像头就可以完美支持。

凌空手写采用双神经网络模型的方案:一个是基于灰度图的指尖跟踪模型,另一个是基于多方向特征文字识别模型。

此外,研发团队发现锯齿和连笔在三维空间的手写识别中对识别率影响较大,于是对抗锯齿和连笔消除算法进行了大量优化工作,在多种模型算法的共同加持下,保证了最终识别结果的连续及稳定,整体上接近触屏手写方式的顺滑、流畅,目前整体识别率已达到大规模应用的要求。

目前,百度输入法已经与小天才/小寻手表达成了合作,会输出“凌空手写”能力给智能手表使用。百度输入法AI探索版也增加了该功能,只需说出“小度小度,打开凌空手写”就能开启该功能。

据介绍,百度海外输入法已经扩充到了120门语言,并在全球190多个国家和地区分发。近两年,百度在语音技术上持续发力,陆续上线了日语、印地语、西语识别等,并在日本、印尼、新加坡等地布局了本地团队。现在全球安装量达到一亿,在美国GP商店输入法品类排名第一。

同时,百度海外输入法与kitty、轻松熊、LT DUCK、工作细胞血小板、格林奇、大黄蜂等超过100个知名进行了合作。

王海峰前面提到,百度输入法是百度技术应用的桥头堡,新的技术将会首先应用在输入法上;搜狗王小川也表示将赋能升级输入法列为搜狗年度战略之一,并且输入法不止可以打字,还将承载信息获取和流量分发;科大讯飞最新发布的输入法版本也主打AI语音输入。

语音交互目前已经被行业内普遍视为下一个互联网超级入口,而输入法又具备高频次、全场景使用的产品优势,AI语音输入,显然已经成为头部厂商对决博弈的新战场,雷锋网曾经在《输入法都打AI牌的年代,讯飞的先发优势还在不在?》一文中提到过,目前输入法市场格局形成了一超多强的局面,搜狗输入法目前市场份额位列第一;百度输入法借AI之力奋起直追;讯飞等输入法也在不断差异化,努力加强个性化特色功能。

目前来看,百度发布的新语音识别模型在技术上取得了非常大的突破,而其推出的各种好玩炫酷的个性化功能也有利于俘获90后、00后等年轻一代用户的喜爱,但搜狗和讯飞在语音识别领域的积累、在整体输入法和语音输入市场占有率方面的优势也对百度输入法造成了强有力的竞争,未来的市场格局如何,仍需市场进一步检验。返回搜狐,查看更多

发表评论