INTERSPEECH2021喜讯 | 标贝科技语音连续3届收录于全顶语音大会 6月8日消息,2021全球顶级语音大会INTERSPEECH论文收录结果于日前重磅揭晓标贝科技语音技术团队投递的语音论文《PDF:Polyphone Disambiguation by Using FLAT》 (译为《基于FLAT的多音字消歧系统》,以下简称"论文";)受到国际学者专业认可,成功收录其中据了解,这也是继2019和2020两届大会入选后,标贝语音论文第三次被大会成功收录,彰显不俗的语音科研实力 一年一度的INTERSPEECH是全球最具影响力的语音行业大会,而语音论文彰显大会国际化、专业化、前沿化的特点,吸引全球数以千计的科研机构、高校及厂商关注,踊跃参与论文撰写和投递,共同见证行业蓬勃发展 本次标贝科技投递的"论文";,研究重点为在多音字消歧的系统中引入了FLAT的模型结构经过研究表明,在建模过程中,句子中多音字字符可以有效与所有的匹配词汇进行交互,缓解了TTS系统在合成语音时,因分词错误导致的多音字发音错误的问题此外,该模型还引入了中文发音词典的信息,赋予带多音字字符的词汇中目标多音字的正确发音,由此降低了多音字消歧系统的建模难度以及提升了多音字消歧系统的预测准确率。
该模型还引入了中文预训练语言模型,通过使用了动态词向量,加强了句子中字符的表征能力,进一步提升了模型性能 取得以上成绩,与标贝专业、先进的研发技术整体综合实力密不可分标贝科技自成立以来,把AI技术创新应用放在首位,以"语音连接场景、数据服务技术";为理念,在技术、数据及应用三端不断创新,确保在语音和数据领域的领先地位 在语音合成方面,标贝科技语音技术路径经历重要的三个阶段,无论是在场景落地还是技术演化方面,均有巨大突破 1.0阶段注意力机制深度学习首次商用 为了提高语音合成的自然流畅度,标贝科技的语音合成技术在声学、韵律上采用了基于Attention机制的深度神经网络技术模型,充分利用文本数据,构建前端模块、选择合适的声码器,降低运算量,实现合成语音的发音自然、清晰、韵律感流畅,让机器与人的互动显得更亲近 2.0阶段音色扩展个性化合成 为了满足不同场景的需求,标贝科技在音色和场景丰富度上持续发力基于海量语音数据的优势,对音色库进行充分扩充,推出支持不同年龄、性别、以及语种的多类型音色的TTS2.0解决方案,并支持用户个性化需求定制,满足了多场景及多业务的需求 语音技术方面,标贝打造了支持声音复刻、情感合成等个性化、差异化的语音技术服务。
声音复刻与情感合成是基于语音技术本身的创新型应用通过复刻声音,为声音注入丰富的情感,深度挖掘合成语音的个性化、定制化价值,更好的匹配有声阅读、AI教育等应用场景 3.0阶段深度学习框架升级,更有表现力更自然的声音 2021年开年,标贝推出了全新升级的TTS3.0技术采用全新的Transformer机制和GAN声码器,升级了全新的模型结构的基础上,依旧保持了对tts2.0旧模型的全部兼容,最大程度地保证无缝升级同时,新系统使用了高维度的声学信息,可以承载更多的声音细节,显着提升了现有发音效果无论是自然讲话、情绪讲话、还是角色模仿,都大大提升了多场景下角色和情感表达判断的精确性,同时保障了输出音质的稳定、清晰、顺畅,声码器采用GAN结构,不但高效且真实的还原了波形,同时为合成声音注入了真实质感 在场景方面,标贝科技基于技术优势的基础上,打造能够覆盖多场景应用的语音交互方案,包括语音合成、语音识别、声音复刻、情感合成以及声音转换在内的语音技术产品,以有温度的声音,提升用户交互体验 值得一提的是,数据为AI应用落地提供坚实基础而标贝科技致力于为企业提供专业、高质量的语音数据服务 在采标能力上,标贝科技基于深度学习以及高精度预处理技术,拥有多语言多类型数据采集制作能力、语音合成技术建模和测试需要的深度标注加工和分析处理等数据服务。
其中,数据采集方面,标贝科技可根据客户定制化需求,对各类规定文本、指定图片,各种环境下的语音、视频进行采集;采集过程中可实现对其内容的筛选、文本化等相关任务 。