人工智能语音产业 (语音人工智能未来趋势)

科技企业积极布局,共同推动产业链成熟

语音 AI 产业链主要分为上游的基础技术层、中游的基础应用层和下游的方案产品集成层。上、中游主要参与者是擅长基础技术研发的科研院所、技术与资金实力比较雄厚的传统巨头厂商(如亚马逊、谷歌、百度等),包括英伟达、英特尔等芯片厂商。

下游主要参与者包括智能语音助手软件服务商和嵌入智能语音系统的硬件服务商等,国内如云知声、思必驰等研发实力较强的创业公司也通过与实力较强的企业合作参与其中。

乐晴智库,行业深度研究(微信公众号:乐晴智库)

语音人工智能未来趋势,语音人工智能现状

语音人工智能未来趋势,语音人工智能现状

Google:底层技术积累深厚,持续发力布局全产业链

公司于 2011 年正式成立 AI 部门,目前包括 Google 搜索、Google Now、Gmail 等 100 余个团队使用机器学习技术,并往其开源 Android 手机系统中注入大量机器学习功能(如用卷积神经网络开发 Android 手机语音识别系统)。目前产品和服务主要依靠 AI 技术驱动,如使用深度学习技术改善搜索引擎、识别 Android 手机指令、鉴别其 Google+社交网络的图像等。

掀起 AI 并购狂潮,持续发力语音 AI 领域。“内生+外延”双轮驱动成为科技龙头企业布局 AI 的一般战略。谷歌在成立专门的 AI 研究团队以维持自身在先天基础技术和产品集成优势的同时,也积极并购或参股 AI 初创公司,以期搭建完整的 AI 生态链。

语音人工智能未来趋势,语音人工智能现状

公司 2016 年 9 月收购的 Speaktoit 是专注于语音交互功能和自然语言学习,为有语音识别功能的应用 app 提供云端应用接口编程。2017 年 1 月收购的 Limes Audio 在音频信号处理方面经验丰富,技术可用于减少因物理空间条件不足所导致的音效不佳问题。底层语音 AI 技术不断积累,用户使用场景进行重点覆盖。在语音 AI 布局方面,谷歌的布局分成三个方面。第一是做好底层技术积累,研发先进的深度学习算法,增强语音识别能力,对于信息处理和用户服务产生更好反馈;第二是覆盖用户生活使用场景,抓取到更多信息;第三是将技术转化为商业应用,以 Google Home 作为家居系统入口,着力打造智能家居生态产业链。

更多行业精选报告*载下**:乐晴智库网站 www.767stock.com

语音人工智能未来趋势,语音人工智能现状

开源第二代深度学习系统,设计专用集成芯片。2015 年 11 月,谷歌宣布开源第二代深度学习系统 TensorFlow。TensorFlow 可模仿人类大脑工作的方式并识别出模式,在数据输入和输出方面都有较好的精度和速度,被广泛应用于语音识别、图像识别等领域。

2016年 5 月,谷歌发布专为 TensorFlow 设计的专用集成芯片,命名为张量处理单元 TPU(TensorProcessing Unit),大幅度提升深度学习系统运行效率。2017 年 2 月 15 日第一届 TensorFlow开发者峰会上,TensorFlow 1.0 版本正式推出,加强了 Python API 的稳定性,使得加入新特征变得更加容易,更适合商业化使用。

语音人工智能未来趋势,语音人工智能现状

推出智能音箱 Google Home,标志谷歌语音 AI 商业应用落地。2016 年 5 月召开的Google I/O 开发者大会上,谷歌推出语音智能助手 Google Assistant 与智能音箱 GoogleHome,利用虚拟助理融合智能家居,加速推进智能生态建设。之后能与 Google Home 兼容的家庭智能设备继续增多。

2017 年 1 月 25 日,Google 宣布与 Belkin 的 Wemo 系列智能插头和照明开关和 Honeywell 智能恒温器展开合作。Google Home 用户只需打开 App,就可以在控制菜单中将这些设备连接到智能音箱上。更进一步的是谷歌在 MWC2017 展会上宣布,Android 6.0 以上版本获取 Google Assistant 无需系统更新,谷歌会通过 Play 服务为符合运行条件的设备自动添加 Google Assistant 服务。

语音人工智能未来趋势,语音人工智能现状

Wavenet 语音合成方法开创全新思路。2016 年 9 月,谷歌发布由零开始创造整个音频波形输出的语音合成方法 Wavenet,通过利用真实的人类声音剪辑和相应语言、语音特征来训练其卷积神经网络,让其能够辨别语音和语音模式,输出音频更接近人声。

Apple:以 Siri 为入口,拓展智能设备应用

苹果对于自身在人工智能领域的定位是设备智能技术研发商和产品提供商,即将人工智能技术纳入到硬件,利用如 Siri 语音以及 iOS 10 中的图片自动识别分类机制,拓展语音、图像识别方面的应用。Siri 于 2011 年和 iPhone 4S 同时推出,客户体验经历了一个逐步攀升的过程。

经过较长的语音技术探索,在 2016 年苹果开发者大会上,iOS 10 搭载的Siri 开放新功能 API 和 SDK,支持 Siri 控制第三方应用,如使用 Siri 叫滴滴专车、为 QQ好友发送消息等。相较谷歌助手仅支持 5 种语言,亚马逊语音助手 Alexa 仅支持英语和德语,Siri 支持语言的种类高达 24 种,可以更好地本地化、融入用户生活。今年 3 月,苹 果表示 iOS 10.3 版本中语音助手 Siri 将支持上海话,这是继粤语和台湾国语之后的另一种中文方言上线。

语音人工智能未来趋势,语音人工智能现状

Amazon:以 Alexa+Echo 为核心,构建智能生态系统

市场优势明显,智能音箱 Echo 抢占先机。亚马逊作为全球大规模跨国电商,拥有海量 C 端市场用户。2006 年后,公司借助 AWS 在云市场的领先地位为 AI 产业发展积累基础数据量。2014 年 11 月,亚马逊智能音箱 Echo 与个性化语音助手 Alexa 诞生,并在随后的两年时间内得到消费者的高度认可。尽管 Amazon 推出 Echo 时,它只是一个内置几个语音命令的智能扬声器,但随着用户习惯培养以及近两年语音技术的不断精进,已经发展成为一个丰富的智能生态系统。

语音人工智能未来趋势,语音人工智能现状

加强 Alexa 第三方合作,步入相关智能设备领域。目前搭载 Alexa 的硬件品类已经超过 7000 种。产品品类从电器、手机到机器人、汽车信息娱乐系统等多个领域,品牌涵盖了 LG、华为、GE、福特、大众、联想、优必选等。2017 年 1 月,Amazon与华为达成合作,在面向美国发售的 Mate 9 上搭载语音助手 Alexa,同时与摩托罗拉合作开发 Moto Mods。Moto Mods 是与 Moto Z 手机配合使用的可拆卸模块,可为手机增加音箱、投影仪等功能。2017 年 2 月,高通宣布旗下公司将帮助高通蓝牙音频系统芯片 SoC 实现内置 Alexa 唤醒支持,Amazon 顺利进入智能耳机领域。

Microsoft:“小冰”、“小娜”与合作方切入多个领域

2014 年 5 月,微软首次发布人工智能伴侣虚拟机器人“微软小冰”,经过两年的技

术改进与调试,*四代第**微软小冰于 2016 年 8 月 5 日发布。

2016 年 12 月 9 日,微软(亚洲)互联网工程院宣布与腾讯达成合作,小冰进入腾讯QQ,让手机 QQ 聊天功能“厘米秀”拥有智能沟通的能力,与 QQ 平台上获得首批 AI体验资格的用户进行智能互动。3 月 14 日,合作又进一步深入,小冰可被用户邀请至 QQ群聊。小冰拥有实时情感决策对话引擎,可以与群用户进行实时对话,支持语音和图像多 感官交流。除聊天功能外,QQ 群聊小冰还开放了测天气、猜成语、占星术、对诗等群游 戏和群管理技能。

语音人工智能未来趋势,语音人工智能现状

百度:整合打造 AIG,度秘应用空间广阔

百度作为 BAT 中最早进军人工智能的互联网公司,已将 AI 作为未来最重要的核心战略,先后成立深度学习研究院(Institute of Deep Learning,IDL)、硅谷人工智能实验室、百度北美研究中心、AI 技术平台体系(AIG)等。

2010 年,百度已经开始进行智能语音技术研发,并于同年 10 月推出语音搜索服务。2014 年末,在百度任职的吴恩达团队发明了“Deep Speech”语音识别系统,可以在嘈杂环境下实现将近 81%的辨识准确率。该系统采用深度学习算法取代了原有模型,在递归神经网络或者模拟神经元阵列中进行训练,让语音识别系统更加简单。2015 年 11 月,百度推出 Deep Speech 2.0 深度语言识别技术,用于提高在嘈杂环境下语音识别的准确率。2016年,百度公布深层卷积神经网络技术 Deep CNN 算法模型,此模型有望成为 Deep Speech 3.0核心组成部分,并率先应用到百度语音搜索中。

语音人工智能未来趋势,语音人工智能现状

科大讯飞:全面布局智能语音产业链

科大讯飞作为国内智能语音产业领导者,实行全产业链发展战略,从上游的语音硬件芯片、麦克风阵列,到中游基础应用层的语音合成、语音识别和语音拓展等技术,再到下游的服务方案和产品均有完整布局。

科大讯飞麦克风阵列主要有二麦、四麦、六麦三类,主要应用场景有机器人、智能家居、智能硬件等,功能聚焦于智能硬件远场拾音的实现。

音识别:针对人与人之间自由交谈、会议演讲等场景,语音实时转写通用正确率很高,能够在实际应用场景中达到实用门槛的中文语音转写。2016 年 9 月,科大讯飞参加由 Google承办的第四届 CHiME Challenge 国际多通道语音分离和识别大赛获取全部三项赛事第一名,说明其语音识别以及麦克风阵列处理技术处于国际顶尖水平。

语音人工智能未来趋势,语音人工智能现状

语音人工智能未来趋势,语音人工智能现状

Nuance:语音识别传统巨头,车载与医疗语音前景看好

Nuance 是专注语音识别底层技术巨头之一。2012 年,Nuance 从底层语音技术输出商转型为企业解决方案服务商,成立四大业务部门,包括医疗业务部、企业业务部、移动设备业务部和图像业务部。凭借多年在银行、医疗、汽车等行业的服务经验,Nuance 开始布局语音 AI 领域,试图率先建立行业壁垒。

语音人工智能未来趋势,语音人工智能现状

推出物联网开发平台 Nuance Mix,提供智能物联网家居体验。2015 年末,Nuance推出专门针对移动和消费电子产品的开发平台 Nuance Mix。Nuance Mix 可以帮助设备制造商和开发人员快速创建自定义语音和自然语言处理接口,加速包括智能家居、游戏、机器人等行业在内的发展。同时,Nuance Mix 可以作为中间件对智能手机和物联网产品实施控制,并直接与设备本身交互。2017 年 1 月,在国际消费电子展上,Nuance 通过融合Nuance Mix 平台的 Greenwave Systems AXON Platform、家居安全系统集成、ROOBO JellyOS 等实现了对话型智能家居系统。现场有将物联网的连接范围延伸到互联汽车中的演示。

语音人工智能未来趋势,语音人工智能现状

腾讯:借腾讯云布局语音 AI,专注 ASR 和 NLP

2015 年 8 月,腾讯设立 TICS(智能计算和搜索)实验室,专注搜索、自然语言处理、数据挖掘和人工智能等方面。2015 年 11 月,成立 WHAT 实验室,即微信—香港科技大学人工智能联合实验室。2016 年 4 月,腾讯成立 AI 实验室,基于业务整合目标研究计算机视觉、语音识别、自然语言处理和机器学习等研究领域,和内容 AI、社交 AI、游戏 AI、工具类 AI 等研究方向。

语音人工智能未来趋势,语音人工智能现状

语音人工智能未来趋势,语音人工智能现状

微信 AI 团队正式上线智能语音服务,全面进入语音 AI 领域。在语音识别、语音合成、声纹识别等功能上,腾讯云为行业提供了一款垂直领域定制化的语音产品,其专业高效的语音大脑,满足了用户多样场景需求。通过亿万级别业务的并发验证,腾讯云智能语音识别技术在通用领域中准确率达 95%,并可基于不同领域的行业属性,为其定制化语音识别模型,快速解决各项业务难题。

语音人工智能未来趋势,语音人工智能现状

IBM、Intel、阿里巴巴等纷纷布局语音 AI 领域

1、IBM:Watson 不断完善,整体表现良好

公司主打产品 Watson 不断完善更新,应用领域进一步扩大。IBM 自 2006 年开始研

发 Watson,并在《危险地带》智力抢答游戏中一战成名。在后期 Watson 逐步转型为认知商业计算平台,并应用于医疗、金融等领域。2014 年 1 月,IBM宣 布 组 建 “ WatsonGroup”,旨在进一步开发、商用及增强 Watson 及其他认知技术。2016 年 3 月,IBM与科大讯飞正式建立战略合作,致力于在认知计算算法、云平台架构等层面合作。2017年 3 月,IBM 宣布在语音识别领域取得重大进展:Watson 的语音识别系统错词率降至 5.5%。

2、Intel:携手科大讯飞,精研语音 AI 芯片

2016 年 10 月,Intel 与科大讯飞宣布合作共同研发 AI 芯片,该芯片将麦克风阵列、远场语音识别等功能集成到 SoC 当中,形成完整的远场语音交互链条,面对来自国内初创公司技术的压力,此举进一步增强科大讯飞在麦克风阵列技术和方案方面实力,摆脱国内合作 ARM 厂商的技术限制,同时自身也进入智能语音交互市场提供底层硬件。

3、阿里:智能语音助力电商发展

2015 年 7 月,阿里发布人工智能购物助理虚拟机器人“阿里小蜜”。2015 年双十一期间,蚂蚁金服 95%的远程客户服务已经由大数据智能机器人完成,并同时实现了 100%的自动语音识别。2016 年 8 月,阿里云宣布推出人工智能系统—ET。ET 基于阿里云强大的计算能力,正在向多个领域不断进化,目前已具备智能语音交互、图像/视频识别、交通预测、情感分析等技能。

更多行业精选报告:乐晴智库网站 www.767stock.com

乐晴智库,行业深度研究

微信公众号:乐晴智库

个人微信号:lqzk777

新浪微博:乐晴智库