为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

2020-2022年中国智能语音行业分析报告

2020-04-16 42页 ppt 4MB 17阅读

用户头像 个人认证

爱你宏宏_11301

暂无简介

举报
2020-2022年中国智能语音行业分析报告智能语音相关技术概述子研究(1/3)消费级市场子研究(2/3)企业级与公共级市场子研究(3/3)市场参与者1234智能语音的概念智能语音即实现人与机器以语言为纽带的通信智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。 人机对话的实现流程NLU语音理解NLG语言生成ASR语音识别TTS语音...
2020-2022年中国智能语音行业分析报告
智能语音相关技术概述子研究(1/3)消费级市场子研究(2/3)企业级与公共级市场子研究(3/3)市场参与者1234智能语音的概念智能语音即实现人与机器以语言为纽带的通信智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。 人机对话的实现流程NLU语音理解NLG语言生成ASR语音识别TTS语音合成对话输入与前端处理 对话输出0108020703060405DST对话状态维护Policy动作候选排序信号及语音NLP外耳中耳:声音传递内耳:声波转换听觉中枢:主观听觉感受 •听觉掩蔽——噪声分离 •空间听觉——声源定位、声源••通过毛细胞将声波机械能转化为•将声能转化成机械能并放大,生物电信号,经由听神经传导干、中脑、丘脑•判断声音起止 把声波传送至内耳•感知声音特征 •与管理“读”、“写”、“说” 的语言中枢关联智能语音的前情提要(1/3)机器“听觉”本质上是对声音特征和文本的分类任务人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,还需要另外进行信号处理与特征分类任务。 人与机器的“闻音知意”麦克风阵列 拾音器语音识别语言理解 •• 信号并放大话发生的背景领域,再通过人的意图 • • •语音增强的意图转化为显式的指令,为机器提 •声源信号提取/分离供一个的语义表示起止和音色等特征,还需要另外进行信号处理与特征分类任务“技术变迁技术阶段1950s1970s1980s1990s2006201120162017~2018起步期变革式发展期落地可用期语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展DNN的出现使语音识别错误率第一次大幅度降低(接近90%)机器语音识别准确率第一次达到人类水平(95%)智能语音的前情提要(2/3)深度神经网络是智能语音技术近年达到落地可用的推动器2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。 智能语音技术发展历程示意图(以语音领域模式识别为主) Hiton提出用深度置 信网络初始化神经 语音识别转向基于概率统网络,掀起了深度 计建模的方法学习浪潮 出现语音合成的参•神经网络开始用于语音识成为潮流 数合成法出现,别,但效果不明显端到端的语音识 任务上性能显著提升 自然的语音确率进一步提升 拼接问题远场语音识别和唤醒 基于DNN的声纹识别率提升了进一步发展 30%全双工语音交互出现 模板匹配方法主导概率统计建模方法主导深度神经网络方法主导准确率可达98% 根据实际应 用痛点针对 性优化智能语音的前情提要(3/3)所涉学科及其研究任务声源定位用于确定声源方向和距离,主要应用于语音交互设备对声源进行定位和海洋声学中的声源定位/方位估计。主流方法包括波束形成,超分辨谱估计和TDOA等 声学信号 模式识别自然语言处理 语音合成语音增强去混响回声抵消其他方向声纹识别语音唤醒语音识别特定声音检测谎言检测自然语言理解对话管理自然语言生成语音合成当语音信号被各种各样的噪声干扰后,深度神经网络模型利用大量数据,对噪音成分和语音成分进行有效估计,从含噪声的语音信号中提取出纯净语音,对于智能语音的完成非常重要弱化混响引起的不同步的语音相互叠加、从而提升语音识别效果。主要方法有基于盲语音增强的方法、基于波束形成的方法、基于逆滤波的方法即自噪声抑制,去除语音交互设备自己发出的声音,而只保留用户的人声将机器学习应用进生物声学、地质探测等生物识别技术的一种,从应用方向看包括说话人辨认(匹配特定说话人)、确认与聚类(区分不同说话人音频片段),需要用到声学处理和深度神经网络处理人说话时的短时频谱、声源、时序动态、韵律等特征属于信号处理(SSP)的一部分。在连续语流中实时检测出说话人特定片段,将设备从休眠状态激活至运行状态。实现方法有基于置信度、基于识别和基于垃圾词网络的唤醒;目前主流应用类型有:先唤醒再指令、将唤醒词和指令一同说出、将常用用户指令设置为唤醒词等。目前远场的智能硬件设备如机器人、智能音箱可支持3-5米的远场唤醒通过将人类语音转换为计算机可读的输入,由特征提取、声学模型、语言模型组成,包括近场识别、远场识别,近年的应用中还涉及切分说话人、全双工语音等通过特征提取与算法训练,使机器能够完成对不同人群、不同乐音等特定声音检测提取谎言中微颤抖所引起的语谱局部能量变化,将所提取的特征作为神经网络输入进行谎言识别将用户的输入映射到预先根据不同场景定义的语义槽中,让机器理解语言的意思。通常包括三个任务:领域检测、意图识别和语义槽填充考虑历史对话信息和上下文的语境等信息进行全面地分析,决定系统要采取的相应的动作,如追问、澄清和确认等。主要任务有:对话状态跟踪和生成对话策略。实现途径上,目前有检索模型、生成模型等。将机器输出的抽象表达转换为句法合法、语义准确的自然语言句子把文字智能地转化为自然语音流,也就是输入是文本,输出是波形;近年个性化TTS、带有情绪的TTS成为热点应用展望 声学空间特征与环境 感知 根据房间模型、声学 场景分类、事件检测 来优化响应方式 空间声场 各型号甚至形态的设 备降噪去混响、环绕 立体声播放AI能力共享、算力共享多设备的协同达到效率最优 就近唤醒根据距离、朝向选择最适合应答的设备,控制当前空间的家电 同型号多设备立体 声同步播放 区分左右声道,达 到较好的音乐体验 多房间同时播放 精确同步声学空间感知进步、IT架构和连接协议开放2020年建议重点关注的技术方向(1/3)声学感知空间环境:解决多智能设备无法配合的困扰随着智能语音算法基础性能不断提升,识别准确率、时延问题已不再是交互体验的核心痛点,人们希望让智能设备具备更多的基本能力,例如能够感知环境,当同一个房间里有多个智能交互设备或多台智能交互设备分布在不同的房间时能准确唤醒,过去通过设备间蓝牙通信可以解决由哪台设备被唤醒与人对话,但无法解决相关的家居控制执行问题。2019年,业内玩家开始重视将声学感知空间的能力与交互系统结合起来,实现多智能交互设备的就近唤醒应答,避免多设备重复响应和执行指令,在这种情形下并不存在某个中心交互设备,因此也被称为分布式场景。未来,设备之间的隔阂可能被进一步打破,如使任何形态、任何配置的终端设备通过连接协议实现AI能力共享、算力共享(而不仅限于目前用一个设备通过连接协议对其他设备语音控制),就可能使场景内适宜拾音的设备与人交互、适宜功放的设备配合放音,使多设备的协同达到效率最优。 智能交互终端分布式场景的应用与展望边听边思考节奏控制场景理解学会记忆对话2020年建议重点关注的技术方向(2/3)全双工语音:由处理语音消息升级为处理语音流鉴于目前机器的智能语音交互能力是基于分类任务实现的,其智能程度的提升有赖于技能一项一项地填充补足,最终使交互体验得到质变。上文介绍了人机对话和语音识别(ASR)的基本实现过程,相比于普通以语音消息作为交互的人机对话,全双工则是处理语音流,能够实时预测人类即将说出的内容,实时生成回应,并控制对话节奏。多家厂商在持续投入全双工的研发,全双工、多轮对话、单轮对话对比如下:全双工——只需一次唤醒,保持进行连续的语音流分析(机器保持听+想的状态,即使在它回话的时候也同步在听和想);多轮对话——只需一次唤醒,听、想、说分离,机器会在它的本句回话完成后才再次开始听用户说话、听完再分析;单轮对话——每一次用户说话前都需要先唤醒设备。除了基本的对话IQ与EQ外,让机器实现跨情景流畅切换的全双工(如内容、导航、查询、设备控制的跨情景切换)也是重要研究方向,目前市场上绝大部分机器都只支持单轮对话或多轮对话,真正搭载了完整、成熟全双工语音能力的产品还很少。 全双工语音的智能之处——以微软小冰为例基于生成模型的NLP基于共感模型的对话策略基于语言预测的平行处理机制更懂事 节奏控制器学会引导 更快响应减少用户等待焦虑 学会倾诉 学会倾听 解锁交流的艺术连续语音识别非对称的多段式处理机制 内容池的资源调度多任务协调:特定声音检测、学会“离开” 声纹识别、动态音量调节•单次平均对话轮数(CPS):23轮知识库端到端型理解异常对话处理与在线学习 无结构文本知识结构分析型理解分发式对话管理 键-值型知识库 语义匹配型理解流程式对话管理 实体-关系型知识库对话理解开发环境日志分析工具对话管理编程框架知识库构建工具语言理解对话管理知识库开发工具功能点 问答与对话技能对话引擎的功能要素2020年建议重点关注的技术方向(3/3)对话引擎:支撑问答与对话内容实现的核心对话引擎是支撑人机交互中问答和对话内容实现的核心,广泛应用于智能客服、智能交互设备、智能车载系统等领域,核心功能包括语言理解力、对话管理、知识库和帮助开发者定制开发扩展应用的工具。知识的指导对对话引擎十分重要,其中知识图谱及图谱知识库构建工具能够直接从业务文档抽取知识、建立规则,而不局限于整理好的问答对,这不仅可以帮助机器找到直接的答案来源,还可以使机器依据元素的属性与关系理解语义、形成话题推荐等对话策略。 对话引擎的能力矩阵——以百度UNIT为例完善的培训与认证体系SLA与合理的定价对话引擎的服务要素丰富的预置技能与资源多样化的部署本章小结技术闭环完成度有待提升,面临长期的求索方能突破智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。 智能语音与计算机视觉的差异计算机视觉智能语音落地效果技术闭环完成度••计算机视觉:以人脸识别为代表的图像分类技术主要解决1:1或1:N比对问题,解决场景问题的技术闭环基本形成智能语音:解决人们面对“AI”时希望得到的自然、类人、以及一些场景下需要高信息密度的交互体验的问题,相关技术还未成熟到拼成一个没有明显短板的“木桶”2019年市场超两千亿元消费级智能硬件智能音箱研究单元 语音输入法 12子研究(1/3)消费级市场科大讯飞前装智能网联车机发布,深度打通车别准确率达到97%语音助手及其发展历程智能语音助手赋能多类智能终端,构建全产业生态链消费级智能语音交互是人们接触智能语音最普遍的渠道,从手机语音助手、家庭智能音箱、智能耳机、智能电视、故事机到智能车载等等,根据艾瑞《2020年中国智能物联网(AIoT)白皮书》,2018年消费级AIoT在总AIoT市场中占比68%,市场规模达到1753亿元,作为最早显示出市场潜力的赛道,无论是硬件设备厂商还是互联网公司、AI公司都瞄准消费级智能交互终端。而智能终端的背后还有广阔的生态,包括面向开发者的语音开放平台、语音操作系统及音频内容等等。语音助手是用于终端的语音控制程序,通过智能对话与即时问答的智能交互,让智能机器助手帮助完成用户指派的任务。2011年第一款手机语音助手Siri伴随iPhone4S亮相,各大厂商纷纷入局。从2017年下半年开始,通过开放语音生态系统,进行产业内合作,语音助手向家居、车载、可穿戴设备等领域不断延伸和迁移,构建出全产业生态链。201220142016201820192013诞生期探索期发展期2011首个个人手机国内虫洞语助理Siri诞生,音、科大讯随iPhone4S飞、搜狗语发布音智能助手科大讯飞发布陆续上线第一代智能汽车语音助理,上线命令词语音识别系统20152017小爱音箱累计语音交互次数破百亿,小爱同学内置于手环、蓝牙耳机、电视、手表等硬件设备 语音助手发展历程 GoogleAssistant伴随 GoogleHome发布,实科大讯飞第二代汽车语音现语音控制智能家居助理发布,上线语音唤醒搜狗、科大讯飞等词、语音交互打断技术企业宣布其语音识 机和车联网功能服务 中国智能音箱 销量突破百万微软推出个人助理亚马逊智能音箱多款搭载语音助Cortana,可在PC端使Echo搭载Alexa手的蓝牙智能耳用,不再基于存储式问发布机陆续发布答,实现了对话消费级智能硬件家族通过语音助手或语音转写能力提供音频内容与任务处理服务目前带有智能语音能力的消费级硬件大体可划分为智能家居、儿童产品、随身产品、车载设备、商务产品等。部分产品的交互特性更强,需要通过语音交互为用户提供音频内容和某些任务处理操作,例如智能音箱与车载设备可用于控制开关、收听FM、导航等;部分产品的功能性更强,例如智能录音笔的核心功能是为用户提供语音转文字服务。 2019年中国消费级智能硬件家族 智能音箱 儿童机器人蓝牙语音TWS耳机 车载智能导航 智能录音笔 智能电视 智能故事机 智能手表 手机智能支架商务录音转写器家居儿童随身汽车商务 智能机顶盒 智能学习机 智能翻译机智能车载机器人 智能办公本…………………………16.7%16.3%15.9%11.4%9.8%8.9%8.1%6.9%2.8%1.6%1.2%0.4%智能音箱发展机遇新品类需求家庭共有性价格与功能可使消费者接受智能音箱为语音交互蓝图铺路,成为智能生活入口近年,智能音箱作为智能生活的“入口”的地位逐渐被夯实,主要得益于三点:(1)智能生活入口是一个偏重的服务,因此基于已有较重服务的品类上延伸发展(例如电视、遥控)在产品逻辑上不太通畅,这就给了新兴家庭智能终端发展机会,智能音箱虽然仍定位为“音箱”,但旧瓶新酒,更像是简易形态的机器人;(2)家庭场景是服务于全部家庭成员的,个人私有设备不太适宜执行与整个家庭成员交互的功能,而一些可穿戴设备在芯片等硬件配置上仍有不足,因此需要一款家用设备承载这类场景需求;(3)智能音箱产品价格适中,近年来价格下降趋势明显,且随着远场语音识别、基于NLP的对话和问答能力逐渐成熟,功能达到可用。与智能手机相似,智能音箱在初期也采取了大量补贴的策略,加速在市场上“占位”成为第一要务,便宜的价格使用户心理预期不会过高,这也为厂商持续优化赢得“宽容”时间。 2018年中国智能家居从业者最看好的用户入口终端可得性——设备渗透率终端可得性——设备活跃度应用丰富性——应用数量应用丰富性——流量质量接入便利性国内智能音箱卡位家庭流量迁移(1/3)从PC与移动互联网看流量迁移模型目前移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。 流量迁移模型及智能音箱成为家庭流量入口的优劣势分析 手机:2012年,3G手机大量出货,渗透率达到21%,2013年Q1移动移动数据及互联网业务收入开始超过固定数据及互联网业务收入;2018年底,移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,互联网流量已大量迁移到移动端。智能音箱:预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,且产品价格适中有望推动智能音箱进一步渗透,智能音箱作为家庭接网入口的条件初步具备。手机:2012年,手机上网率首次超过电脑(达到74.5%),93%的手机网民每天通过手机上网;使用手机成为超高频场景,2018年12月,手机上网率达到98.6%,手机网民平均每天上网时长达5.69小时。智能音箱:智能音箱主打语音交互,由于用户体验尚未取得质变,使用频率仍然较低,只有少数用户会每天使用智能音箱;2018年底,每月会登录智能音箱App的用户数只有智能音箱保有量的15.8%。手机:2012年移动App如雨后春笋般涌现,当年8月仅AppStore中国区应用数量就有50.4万个。截至2018年12月,我国总App在架数量为449万款,人均App数超40个。智能音箱:目前智能音箱应用数量大约在万位数,潜在的应用想象力空间还比较空白。手机:相较于PC时代,移动互联网带来的短视频、直播、支付、网文、O2O丰富了人们的生活,让用户对手机的使用频率更高,而这些应用更多的是大流量应用,信息丰富度和用户吸引力较强。智能音箱:目前以无屏款音箱居多,故用户应用大多是查询提醒、有声内容、家居控制,音频得到的流量入口时长也较短,信息量大的服务不易通过语音交互,成为智能音箱应用引流的考验,抓住时间窗口精准推荐成为势在必行的选择;不过其服务内容能较大程度满足老人和孩子的需求、吸引他们的关注,成为智能音箱产品的机会。手机:2015年开始的提速降费解决了移动终端上网“管道”的问题,为移动互联网爆发带来契机。智能音箱:不仅自身入网便利,且基本兼容所有连接通信协议,随着家庭场景中智能家居数量增加,智能音箱作为普及程度和交互性较好的控制设备需求提升。21.920.9%32.7%45.3%60.1%71.2%79.8%83.4% 7.6%19.6%智能手机用户渗透率(3G-5G用户数/移动电话用户数,%)智能音箱家庭渗透率(出货量/城镇住房套数,%)260.0410.0390.0470.0520.0 0.1460.0 1.6390.0380.0 49.220122013201420152016201720182019e2012年,3G手机大量出货智能音箱的渗透情况在我国城镇住房中渗透率达到20%预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛。3/4/5G手机总出货量(百万台)智能音箱出货量(百万台)2019年智能音箱大量出货,2016年-2019年累计出货量超过7200万台2012-2019年中国智能手机与智能音箱出货情况2012-2019年中国智能手机与智能音箱渗透情况渗透率20%:终端可得性在流量迁移上的第一道门槛。目前我国智能音箱家庭渗透率约达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛20122013201420152016201720182019e3.83.74.24.53.42.72.72.93.13.13.33.44.2201811201812201901201902201903201904201905201906201907201908201909201910201911 中国主要智能音箱App月独立设备数(百万台)仅为当时智能音箱保有量的15.8%相较于2019年智能音箱设备出货量大增,月独立设备数上升尚不明显智能音箱App活跃情况与智能音箱累计出货量未成正比智能音箱主打语音交互,由于使用体验等问题,使用频率仍然较低,只有少数用户会每天使用智能音箱进行交互;而智能音箱App作为未来流量变现的重要一环,其活跃度也不够乐观:2018年底,每月会登录智能音箱App的用户只有智能音箱设备保有数的15.8%,后期由于新奇退去,活跃度在2019年上半年还产生了一定下滑,至2019年底,智能音箱App的活跃情况相对于大幅增长的出货量依然未成正比,背后的原因主要是智能音箱应用数量有限、品类较少,潜在的应用想象力空间还比较空白,同时信息量大的服务不易通过语音交互,也成为智能音箱应用引流的考验。 2018年11月-2019年11月中国主要智能音箱App月独立设备数5.637.273.92017 2018销售额(亿元)2019e2020e估算生产成本89.7亿元不算营销、渠道、开发者补贴等,2019年我国智能音箱市场约补贴15.8亿元AI算法授权费(麦克风阵列算法以外的部分)在总成本中占比约3.1% 注释:(1)此处补贴指年销售额与年出货量生产成本间的差距,不涉及厂商赠送会员服 务、对开发者补贴、营销等带来的成本,因此数值受产品库存影响较大。误差会来自对 智能音箱产品价格折扣率及总销量中以折扣价销售数量的误差;可能的成本分布误差会 来自产品型号与配置的划分精细度不足。仅供参考。 (2)AI算法成本囊括了企业采用自研技术(无需对外支出成本)的情况,因此实际发生 在市场中的交易量级应少于2.8亿元数值。~16.4亿元~10.3亿元~7.2亿元~26.4亿元~26.6亿元~2.8亿国内智能音箱卡位家庭流量迁移(2/3)为什么说国内智能音箱会成为巨头的市场2019年,尽管我国智能音箱硬件补贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法——补贴攻城、低价策略、互联网服务运营回血,同时应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局,智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。 2017-2020年中国智能音箱整机销售额 118.0注释:智能音箱用户付费以会员费为主。开发者服务指智能音箱平台方向开发者提供运营支持、云资源、通用软件功能模块支持及IoT模组等。IAP分成指用户进行应用内购买增值服务后,平台与应用开发商对收入进行分成,此处不对会员费及电商购物产生的分成做重复统计。电商购物平台广告植入应用推广IAP分成用户付费开发者服务版权运营已产生数千万~亿元量级收入智能音箱平台服务收入体量电子商务、移动应用商店、网络音频、数字音乐等四类强相关互联网产品通过广告植入等商业模式产生的收入体量国内智能音箱卡位家庭流量迁移(3/3)流量的变现模式是下一步需要考虑的问题目前终端设备销售以外的商业化还不是市场主要关注的问题,但已开始有一些尝试。智能音箱的应用/技能基本是以设备绑定形式存在,因此品牌设备方本身也是平台方(可以理解为智能音箱的核心预置应用、应用商店、主页、操作系统提供方),这为智能音箱更好地复制互联网变现模式打下了基础,电商购物、平台广告植入、应用推广和应用内购买(IAP)分成、用户增值服务付费、开发者服务等都是可能的变现方式,其中用户增值服务和电商购物已开始抢跑。与传统的互联网产品商业模式相比,由于前述智能音箱在活跃度、应用丰富性、流量质量等尚未取得突破,且口播广告不符合音箱产品使用逻辑、信息流及原生广告有待开发,因此广告形式、应用推广及IAP形式的变现还存在较大瓶颈。 2019年中国智能音箱平台商业模式探索 数十万亿级 数百亿级百亿级数十亿 数十亿 数十亿已产生数千万元量级收入数十亿 语音输入主要利用语音识别、AI深度学习等技术,转写语音为文字,实现多种语言/方言语音输入、混合语音输入等,提高语音输入准确度。 语音变声 核心是将语音转化技术与语音合成系统相结合, 将说话人语音映射到目标语音,从而生成用户想 要的音色,实现个性化语音变声。 百度输入法 能够实现高精度的方言自由说、中英自由说, 支持语音翻译、智能预测与纠错等功能、语音 混输;离线语音识别精准度达到与在线相同水 平,准确率超过98%。 语音翻译通过语音识别+机器翻译,在聊天时,可实现多种方言/语言的实时翻译,提升沟通效率。 智能预测与纠错利用深度学习算法,智能识别按键输错情况,帮助用户自动纠正错误,完成快速精准输入,提高长句输入效率。 语音斗图基于语音识别和语义理解,在聊天过程中,能够快速定位相应表情包,增加聊天趣味性。 搜狗输入法 支持个性化语音识别;上线语音变声功能,可 模仿明星、动漫发送仿真语音消息,实现中日 韩语音随心译;支持多种语言输入、智能预测 与纠错等功能;搜狗输入法日均语音请求峰值 最高达到8.3亿次。 输入法中的智能语音功能 语音输入法 应用功能讯飞输入法可识别23种方言、2种民族语言、4门外语,支持中英免切换输入、普通话方言免切换输入、在线离线免切换输入、语音实时翻译、方言语音翻译、中英混输、智能纠错等功能,支持定制个性化结果及语音修改后即时学习。语音输入法提升输入效率,满足个性化表达需求输入法是智能语音技术在C端的重要落地场景,语音输入(多语种支持)、智能纠错、语音翻译等功能开始成为标配;语音变声、语音斗图等针对年轻群体的创新功能也相继推出。智能语音在输入法上的应用提升了用户的输入效率、更好地满足了用户在个性化表达上的需求,为产品本身增加了吸引力,以第三方输入法的头部产品搜狗输入法为例,个性化语音识别功能上线之后,搜狗输入法登陆率提升10.1%。 B端品牌商 B端技术提供方C端用户设备付费云端能力授权付费行业正在经历从单一商业模式向多元化商业模式的变迁,技术输出的“厚度”增加,“边界”扩大,使技术落地曲 线的加速度变大内容技能推广商品增值查询 B端品牌商 B端技术提供方C端用户个性化语音助理/个性化能力定制付费 增值服务付费Inc.云端能力授权付费 定制算法开发费 平台开发能力调用付费芯片、阵列软硬一体化产品方案付费 定制算法开发费 平台开发能力调用付费围绕核心技术组成完整方案,帮助用户转化率提升带来分润设备与生态服务付费本章小结复盘消费级市场:商业模式多元化与技术落地曲线的加速度在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者——语音交互技术提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础环节与模块化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链条语音交互技术能力;(2)有建立用户联系、获取用户体验反馈的场景。 智能语音技术商业模式的多元化变迁市场画像应用场景 23子研究(2/3)企业级与公共级市场2019年市场 72.8亿元8%30%14%16%5%27%9%22%8%13%4%44%22%17%企业级与公共级市场画像平台化技术输出和解决方案两类模式,解决方案业务占比高智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。33.349.463.182.1106.015.323.429.234.540.520182019e2020e2021e2022e解决方案形式业务规模(亿元) 技术平台输出形式业务规模(亿元)注释:(1)统计口径:未统计金融、社保声纹识别应用和为智能设备定制产品方案业务。解决方案业务指以项目制交付软硬件产品和服务,其中设备仅包括核心产品如翻译机、专用麦克风、专门服务于语音识别与转写的服务器等,不包括同一采购项目中其他终端(如监控设备、电脑)、各类其他服务器与存储设备、安装服务。技术平台输出形式业务指通用型、直接调用的服务,不局限于公有云形态。(2)统计方法:采用细分垂直领域市场当年释放的需求和主要玩家细分子项业务收入两种方法,具体细分见右图。请读者务必注意数据口径,尤其在引用数据进行二次计算时。医疗健康21% 公检法7%7%48% 前装车载智能助手教育语言服务与泛传媒AI客服 互联网语音审核通用智能语音开放平台注释:未统计金融、社保声纹识别应用和为智能设备定制产品方案业务。医疗健康不含家用慢病管理音箱/机器人等设备;教育含在线教育用户付费中应核算为口语评测功能贡献的部分、新高/中考口语人机对话考试系统,不含在线口语教育的整体销售收入、不含智慧课堂、学情分析、教育云、校园多媒体;AI客服包括电话质检和客服机器人,全部客服业务均归属该子项,而不统计入各垂直领域;通用智能语音开放平台指面向开发者提供的通用非定制开发技能服务,已计入垂直领域的开放服务不再重复统计。2019e解决方案形式业务规模细分结构2019e技术平台输出形式业务规模细分结构2022e技术平台输出形式业务规模细分结构 17%14%9%38%2018-2022年中国智能语音 企业级和公共级市场规模 2019&2022年中国智能语音 企业级和公共级市场细分结构2022e解决方案形式业务规模细分结构CAGR:32%智能语音与医疗健康(1/2)核心价值在于提升输入效率和查询效率医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。 智能语音在医疗健康领域的主要应用 ▪临床决策支持系统-提供系统交互接口,支持医师通过语音输入查询医学知识和相关的诊疗案例 辅助其他医疗信息化系统 ▪导诊机器人、小程序嵌入功能-通过语音或文字交互帮患者挂号,根据症状描述预诊断或推荐科室,科室位置导航 ▪诊后随访 -自动电话随访患者恢复情况、提醒复 诊、自动整理对话内容 ▪住院工作站系统 -为住院管理场景的医护人员提供移动 端语音录入与查询 高覆盖 深研究通用能力能力要求 在 医疗专业术语库 和 科室针对性优化 以 降噪、降时延、方言、 无关信息过滤、语义标 准化、深度结构化… 门诊语音录入病例-通过语音输入的方式生成结构化病例、执行病例检索,高效记录医患沟通,节约医师时间约30%-50%。除症状外,一些专业术语如牙位图、化学式、医学药品、特殊符号等都可口述生成9.79.09.99.710.610.7智能语音与医疗健康(2/2)发展速度受限于我国医疗信息化建设现状Nuance是全球最大的智能语音公司,2018年其在医疗业务上取得9.9亿美元收入,占公司总收入的48%。相较而言,我国智能语音市场中2018年医疗健康仅占0.7%。这主要是由于美国医疗机构以私立为主,对诊疗服务人性化、医疗信息化关注度更高;我国医疗信息化发展水平相对落后,三级以下医院信息化建设经费有限、专项政策引导力度有待提升、数据孤岛普遍存在,因此目前市场处于单点式推进状态,短期内推进速度比较平稳。不过,智能临床决策支持系统和电子病历语音录入等应用与医疗信息系统打通集成、分级诊疗、医保控费、民生建设等都有直接关系,若相关政策引导加强、医疗数据标准建立和医疗数据跨机构整合推动加速,则有望复制海外市场的医疗业务体量。按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院(付费数,渗透率分别为36%和4.5%),180万医生受益。 201620172018 医疗收入(亿美元)其他收入(亿美元)注释:Nuance的医疗业务起家于为临床专业人士提供语音导航文件系统和应用程序,目前还包括临床文档改良(CDI)、临床语音识别、智能影像诊断、实时听写、计算机辅助编码、医疗质量质量把控、移动云计算、放射科精准报告等业务。2016-2018年美国智能语音巨头Nuance 营业收入结构1.60.30.30.40.50.50.70.51.2 2.70.53.70.94.81.26.020182022e 2019e2020e2021e智能语音泛应用-智能临床决策支持系统(亿元)智能语音核心应用-其他(亿元) 智能语音核心应用-导诊机器人(亿元) 智能语音核心应用-电子病历语音录入(亿元)注释:智能临床决策支持系统基于知识图谱;P端指公共服务端,包括政府和事业单位。若读者希望进一步了解医疗影像辅助诊断AI可阅读艾瑞《2019年中国人工智能产业研究报告》医疗健康部分。2018-2022年中国智能语音在医疗健康领域 市场规模及细分结构48%46%50%占我国智能语音B端/P端市场的5%占我国智能语音B端/P端市场的1% 合计:0.4 智能庭审采用多语种多方言语音识别、语音合成等技术,结合针对法律业务的专门优化,实现庭审纪律自动播报、庭审笔录自动生成、庭审 笔录音频即时回听及快速检索等功能。 艾瑞预计到2022年,全国累计有70%的法院将上线智能庭审系统;发展方向上,使机器在长文字转写中提取关键信息、做结构化 整理应得到更多重视 电信网络反欺诈 电信诈骗指编造虚假信息,设 置骗局,大部分电信诈骗是通 过电话进行的,声纹识别电信 网络反欺诈系统会自动提取声 纹并与黑名单做比对,提示重 点人员可疑行为,对语音内容 关键词识别动态预警,提示可 疑案件与犯罪意图 虚拟法官 通过语音合成和虚拟形象生成,在互联 网诉讼平台上,以虚拟AI形象同当事人 进行初步沟通,协助真人法官完成线上 诉讼接待等重复性的基础工作 声纹研判战法 声纹鉴定与语音分析系统多由市级及以上 公安单位建设,基层办案单位则会配备声 纹采集设备用于刑侦办案。声纹鉴定与语 音分析系统能够进行语音片段检索、语音 自动检测分离和声纹模拟画像,可协助鉴 定人员自动在音频数据中检索出特定的音 素及相似的音素、进行语音自动比对,缩 小侦查范围,快速确定犯罪嫌疑人身份 智能接警 •窗口报警自助录入:系统转写报警 人叙述的警情信息,并导入笔录系 统,记录警情处理结果,提高接警 效率 •电话警情自动记录:系统智能提取 对话中出现的报警人姓名、联系方 式、案件类别等要素信息,生成警 情记录表单,存储对话内容 •警情数据汇总分析服务警务语音语言服务针对公安领域专业词汇做专门优化,提供警用语音输入法和机器翻译等服务智能语音与公检法帮助公检法系统实现便捷办公和战法突破 智能语音在公检法领域的主要应用0102 语音转录丰富教学模式 通过语音识别实时转写教师讲课的语音为文字,可在授课视频嵌入字幕, 并进行关键词和知识点的快速定位,应用于直播课、小班课、互动课堂。语音算法助力课堂质量监测利用静音检测、语速检测,结合计算机视觉等多模态算法,自动化监测上课互动情况和教学质量。 04 口语测评 涵盖中文(普通话、古诗词)测评和英 文测评,可对语音的完整性、韵律节奏 及语义、语法进行评测等综合打分,有 些产品涉及发音纠正功能,中文测评还 可覆盖轻音、儿化音等汉语语音特征, 可用于日常口语学习及新中/高考口语 机考。口语机考方面,截至2019年年 底约已累计建设150万个机位。智能语音在教育领域的主要应用 03虚拟教师互动教学通过语音合成+VR技术,可以打造虚拟的名师形象,通过亲切的语音、动作、文字等方式与学生互动。智能语音与教育应用于教、管、测、考等环节智能教育领域,AI课堂的建设进入快车道,强调两点:一是解决家校之间、线上线下之间学习资源互通的问题,二是通过多模态识别收集课堂学情信息并做数据精准分析,因此通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测不可或缺。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏、广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。客服SaaS厂商云厂商厂商人公司电信运平台软件开发厂商呼叫中心硬件设备厂商智能语音与客服从人机对话辐射到营销管理和通话服务质检相对于前文所述的医疗健康、公检法、教育领域,客服领域的行业开放性相对较高,对AI应用迫切性强,参与者众多,未来一段时期内业务体量较大。目前AI客服可以为IVR、APP、小程序、网页等各端口提供自动对话功能,应用场景包括智能营销、呼入服务应答、电话质检、在线客服及辅助人工服务,在一定程度上满足了减轻传统客服中心一线人员工作负担、减少用户等待应答、低成本增加企业营销曝光等需求,应用渗透率较高。但目前AI客服营销转化率低、呼入服务应答转人工率高、业务场景适应性对话系统的建设成本与效果性价比较低、真实场景中对话异常处理灵活度不够等问题依然是行业痛点。传统客服产业由客服软件开发商、呼叫中心厂商、硬件设备厂商、电信运营商和软件集成商组成,AI客服则涉及多种类型的企业:近年来通讯云厂商一定程度上取代了传统呼叫中心,其呼叫中心和云客服业务可以集成提供客服机器人能软件集成 商 外包商下游金融零售教育电信文体政务 ……力,AI客服机器人公司和客服SaaS也可通过渠道或者直销模式为客户提供AI客服服务。 AI客服应用场景与参与者 AI智能客服应用场景上游中游 •智能营销 机器人自动外呼,根据人机交互内容自动云服务和AI公司成为新玩家 判断客户意向,就对话内容生成文字记录。 部分会与CRM系统结合帮助企业拓客。 •呼入服务 为呼入电话提供智能语音自助服务,帮助IaaS云PaaS通讯 用户完成咨询、查询、办理等多种业务。 •电话质检AI客服机器 自动检索违规话术并标记,借助通话声音、AI开放 语速、静音、等自动筛选违规内容,对沟 通内容中的客户不满行为或情绪进行检测,营商 降低客户投诉。客服软件 •在线客服 在网页端、App或小程序端口使用机器客商 服与用户会话,机器人通过自动匹配知识 库问题辅助回答。 •人工客服辅助 在线会话过程中,根据对高频业务、业务厂商 知识易错点,推荐话术、知识和业务模板。6.05.1智能语音与互联网内容审核监管特定声音检测和语音识别技术帮助净化网络环境互联网的变迁使音视频内容的传播得以快速发展,经统计,我国部分头部娱乐社交类App月度总有效使用时长达到每月70亿-90亿小时,用户每天将从娱乐社交平台接触大量信息。这也带来了垃圾信息审核难题,2019年上半年,多款语音社交App因通过语音传播违规信息下架。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频帧外,以依图科技为代表的AI公司开始通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。2019H1中国部分娱乐社交头部App月度使用时长 1.5 5.665.4 1.7 5.262.9 1.3 6.6 6.164.4 0.9 6.5 5.866.3 1.1 6.5 5.872.61.2 6.8 5.374.1201901201902201903201904201905201906带有语音功能的交友类ApptOP5总月度有效使用时长(亿小时) 有声音频类AppTOP5总月度有效使用时长(亿小时) 社交直播类AppTOP5总月度有效使用时长(亿小时) 短视频类AppTOP5总月度有效使用时长(亿小时)注释:排名维度是月度有效使用时长。怖主义、违禁内容等违法违规音频。垃圾广告检测识别利用微信号、手机号、QQ等开展的违法垃圾广告内容并进行相应拦截。特定违规声音检测识别声音特征,拦截喊麦、娇喘、呻吟、ASMR等违法违规音频。违规语音内容检测识别语音内容,过滤与拦截涉黄、辱骂、恐010203互联网音视频中的AI语音审核应用场景智能语音与泛传媒增加媒体产能,丰富传播形式智能语音在泛传媒领域的应用主要包括合成主播自动播发稿件,将外语音视频新闻或节目自动翻译、根据画面同步匹配字幕,及为新闻稿件文字自动合成语音等。以自动播发稿件为例,2019年全国两会期间,新华社AI合成主播共播发稿件236条,为资讯内容的生产提供了新的方式;而音频与文字之间的转换则丰富了媒体的传播形式,使用户能够按需、按喜好获取资讯服务。智能语音在泛传媒领域的应用场景及应用的AI技术 合成主播自动播发稿件 •语音合成 •三维人脸重建 •视频合成 为音视频自动翻译匹配字幕 •神经网络机器翻译 •语音识别 •时间轴自动匹配 为新闻稿件提供自动合成的语音 •语音合成 企业数量252家行业图谱行业热度典型企业 32子研究(3/3)市场参与者中国智能语音行业热度市场较为理性,入局企业数量252家据统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。 中国人工智能投资数据概览创业项目数量B轮后项目数量投资事件数量投资机构数量人工智能整体语音识别赛道语义分析赛道2,371 180 72751 23 113,600 228 1041,822 252 140教育政法汽车智能服务开放平台智能硬件与移动互联网产品及服务其他54.5亿元42.3亿元 32% 27% 41% 2019H121% 47%201832% 43%12%46%2017+164%+33%注释:“其他”指智慧城市行业应用、信息工程、电信增值产品运营、运营商大数据及其他业务。代表性企业案例——科大讯飞以AI解决社会刚需,三个同心圆造就行业头部玩家科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。目前科大讯飞的人工智能产业生态已经形成三个同心圆:第一层是核心层。围绕“讯飞超脑”,科大讯飞的教育BG、智慧城市BG、消费者BG、智慧政法BG、智慧医疗BU、智能服务BU、智能汽车BU、运营商BU、工业智能业务部等共同构筑科大讯飞人工智能产业生态的核心层。第二层是探索层。在探索性方向,科大讯飞鼓励内部实施创业机制和战略合作机制,通过资本纽带的形式推动人工智能产业化。第三层是开发层。围绕人工智能核心开发平台,科大讯飞为创新创业者提供技术和数据支持,帮助创新创业者在各应用领域进行业务创新探索,将自身源头核心技术提供给平台伙伴,推动整个产业生态构建,截至2019年12月31日,讯飞开放平台已聚集超过112W开发者团队,总应用数超过73W,累计覆盖终端用户数26.3亿+,A.I.大学学员总量达到33.3W+,以科大讯飞为中心的人工智能产业生态持续构建。 科大讯飞人工智能产业生态与近期业务结构 79.2亿元2019年36代表性企业案例——搜狗为语言理解而生:让AI使人机交互更简单搜狗成立于2003年,是中国搜索行业的挑战者,AI领域的创新者。搜狗CEO王小川认为,随着AI的发展和应用,搜索和输入法的未来将走向自动问答,从而形成前台的自然交互与后台的知识计算相结合的人工智能结构,搜狗是为语言理解而生的公司,在AI的探索上将以语言为核心。基于“让AI使人机交互更简单”的追求,2012年搜狗输入法和地图上线语音输入功能,2016年上线以语音交互技术为核心的知音人工智能平台,推出面向智能设备的“知音OS”,同年在第三届世界互联网大会上,搜狗第一次把已有的语音技术和基于神经网络的实时机器翻译技术结合在一起,进行现场AI同传,至今AI同传已服务数百场会议;2017年,推出语音实时变文字的速记工具“搜狗听写”,帮助用户实现高效记录和信息输入等服务;2018年,智能硬件翻译宝与翻译笔推出,为用户的出行带来便利,也为搜狗带来了有用户反馈闭环的场景,以便进一步打磨技术,2019年搜狗录音笔C1上市,首发当日销量突破了2万台,而降噪技术、听感优化、语音转写切分说话人、针对连读/发音模糊等细节的优化也在不断完善;同时,AI合成主播也于2019年迭代升级,基于AI分身技术的突破实现站播,姿态和动作更自然。 搜狗智能语音探索历程企业用户AI分身AI同传互联网产品智能硬件2018年 2012年AI语音登录互联网产品 完成深度学习的研发 后,语音技术陆续接 入包括输入法、地图 在内的全线产品2016年 技术对外输出 上线知音人工智能平 台,推出面向智能设 备的“知音OS”; 推出AI同传 2017年文字转写服务上线 发布语音转写文字工 具“搜狗听写
/
本文档为【2020-2022年中国智能语音行业分析报告】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索