2020年中国智能语音行业深度调研报告

上传人:徐皓 文档编号:133801066 上传时间:2020-05-30 格式:DOCX 页数:14 大小:654.89KB
返回 下载 相关 举报
2020年中国智能语音行业深度调研报告_第1页
第1页 / 共14页
2020年中国智能语音行业深度调研报告_第2页
第2页 / 共14页
2020年中国智能语音行业深度调研报告_第3页
第3页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2020年中国智能语音行业深度调研报告》由会员分享,可在线阅读,更多相关《2020年中国智能语音行业深度调研报告(14页珍藏版)》请在金锄头文库上搜索。

1、2020年中国智能语音行业研究报告核心摘要:人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。不过人们面对“AI”时希望得到自然、类人的交互体验,这是一个宏伟的开放性课题,背后涉及的各学科技术仍有不足,还面临长期的求索方能突破。消费级智能硬件是最早显示出市场潜力的赛道,市场各方都在瞄准消费级智能交互终端。而智能终端的背后还有广阔的生态,包括语音开放平台、语音操作系统、内容等等,近年行业正在经历从单一商业模式向多元化商业模式的变迁,技术输出的“厚度”增加,“边界”扩大,也带来了技术

2、落地曲线的加速度增加。智能语音企业级和公共级市场主要有平台化技术输出和解决方案两类商业模式,解决方案业务占比较高。与国外市场以医疗为重头有所差异,我国市场以智能客服、公检法及教育业务份额更高。智能语音为各行业解决了刚需性问题,将促进各行业业务效率的提升。目前全国约有超过250家企业参与智能语音语义市场。互联网巨头、技术提供方、设备商和行业集成商应分别重视连续性投入支持问题、基础开发模块标准化程度提升与商务团队配置问题、设备后服务增长问题和软件研发能力建设问题,迎接人机交互升级带来的行业价值链扩张。智能语音的概念智能语音即实现人与机器以语言为纽带的通信智能语音即实现人与机器以语言为纽带的通信。人

3、类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。智能语音的前情提要机器“听觉”本质上是对声音特征和文本的分类任务人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,

4、还需要另外进行信号处理与特征分类任务。深度神经网络是智能语音技术近年达到落地可用的推动器2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。所涉学科及其研究任务本章小结技术闭环完成度有待提升,面临长期的求索方能突破智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短

5、板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。子研究:消费级市场国内智能音箱卡位家庭流量迁移(1/3)从PC与移动互联网看流量迁移模型目前移动数据及互联网

6、业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。智能音箱的渗透情况在我国城镇住房中渗透率达到20%预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛。国内智能音箱卡位家庭流量迁移(2/3)为什么说国内智能音箱会成为巨头的市场2019年,尽管我国智能音箱硬件补

7、贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法补贴攻城、低价策略、互联网服务运营回血,同时应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局,智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。国内智能音箱卡位家庭流量迁移(3/3)流量的变现模式是下一步需要考虑的问题目前终端设备销售以外的商业化还不是市场主要

8、关注的问题,但已开始有一些尝试。智能音箱的应用/技能基本是以设备绑定形式存在,因此品牌设备方本身也是平台方(可以理解为智能音箱的核心预置应用、应用商店、主页、操作系统提供方),这为智能音箱更好地复制互联网变现模式打下了基础,电商购物、平台广告植入、应用推广和应用内购买(IAP)分成、用户增值服务付费、开发者服务等都是可能的变现方式,其中用户增值服务和电商购物已开始抢跑。与传统的互联网产品商业模式相比,由于前述智能音箱在活跃度、应用丰富性、流量质量等尚未取得突破,且口播广告不符合音箱产品使用逻辑、信息流及原生广告有待开发,因此广告形式、应用推广及IAP形式的变现还存在较大瓶颈。本章小结复盘消费级

9、市场:商业模式多元化与技术落地曲线的加速度在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者语音交互技术提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础环节与模块标准化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链条语音交互技术能力;(2)有

10、建立用户联系、获取用户体验反馈的场景。子研究:企业级与公共级市场企业级与公共级市场画像平台化技术输出和解决方案两类模式,解决方案业务占比高智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。智能语音与医疗健康(1/2)核心价值

11、在于提升输入效率和查询效率医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。智能语音与医疗健康(2/2)发展速度受限于我国医疗信息化建设

12、现状Nuance是全球最大的智能语音公司,2018年其在医疗业务上取得9.9亿美元收入,占公司总收入的48%。相较而言,我国智能语音市场中2018年医疗健康仅占0.7%。这主要是由于美国医疗机构以私立为主,对诊疗服务人性化、医疗信息化关注度更高;我国医疗信息化发展水平相对落后,三级以下医院信息化建设经费有限、专项政策引导力度有待提升、数据孤岛普遍存在,因此目前市场处于单点式推进状态,短期内推进速度比较平稳。不过,智能临床决策支持系统和电子病历语音录入等应用与医疗信息系统打通集成、分级诊疗、医保控费、民生建设等都有直接关系,若相关政策引导加强、医疗数据标准建立和医疗数据跨机构整合推动加速,则有望

13、复制海外市场的医疗业务体量。按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院(付费数,渗透率分别为36%和4.5%),180万医生受益。智能语音与公检法帮助公检法系统实现便捷办公和战法突破智能语音与教育应用于教、管、测、考等环节智能教育领域,AI课堂的建设进入快车道,强调两点:一是解决家校之间、线上线下之间学习资源互通的问题,二是通过多模态识别收集课堂学情信息并做数据精准分析,因此通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测不可或缺。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求

14、也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏、广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。智能语音与客服从人机对话辐射到营销管理和通话服务质检相对于前文所述的医疗健康、公检法、教育领域,客服领域的行业开放性相对较高,对AI应用迫切性强,参与者众多,未来一段时期内业务体量较大。目前AI客服可以为IVR、APP、小程序、网页等各端口提供自动对话功能,应用场景包括智能营销、呼入服务应答、电话质检、在线客服及辅助人工服务,在一定程度上满足了减轻传统客服中心一线

15、人员工作负担、减少用户等待应答、低成本增加企业营销曝光等需求,应用渗透率较高。但目前AI客服营销转化率低、呼入服务应答转人工率高、业务场景适应性对话系统的建设成本与效果性价比较低、真实场景中对话异常处理灵活度不够等问题依然是行业痛点。传统客服产业由客服软件开发商、呼叫中心厂商、硬件设备厂商、电信运营商和软件集成商组成,AI客服则涉及多种类型的企业:近年来通讯云厂商一定程度上取代了传统呼叫中心,其呼叫中心和云客服业务可以集成提供客服机器人能力,AI客服机器人公司和客服SaaS也可通过渠道或者直销模式为客户提供AI客服服务。智能语音与互联网内容审核监管特定声音检测和语音识别技术帮助净化网络环境互联

16、网的变迁使音视频内容的传播得以快速发展,经统计,我国部分头部娱乐社交类App月度总有效使用时长达到每月70亿-90亿小时,用户每天将从娱乐社交平台接触大量信息。这也带来了垃圾信息审核难题,2019年上半年,多款语音社交App因通过语音传播违规信息下架。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频帧外,以依图科技为代表的AI公司开始通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。智能语音与泛传媒增加媒体产能,丰富传播形式智能语音在泛传媒领域的应用主要

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 调研报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号