文语转化系统tts建议书

上传人:shaoy****1971 文档编号:108167493 上传时间:2019-10-22 格式:DOC 页数:22 大小:95KB
返回 下载 相关 举报
文语转化系统tts建议书_第1页
第1页 / 共22页
文语转化系统tts建议书_第2页
第2页 / 共22页
文语转化系统tts建议书_第3页
第3页 / 共22页
文语转化系统tts建议书_第4页
第4页 / 共22页
文语转化系统tts建议书_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《文语转化系统tts建议书》由会员分享,可在线阅读,更多相关《文语转化系统tts建议书(22页珍藏版)》请在金锄头文库上搜索。

1、目目 录录 1 1、引言、引言 4 4 1.1 背景说明 4 12 项目说明 .5 13 参考资料 .5 1.4 词语及缩写5 15 建设目标.5 2 2、系系统统总总体体概概述述6 6 2.1 系统概述6 22 系统功能 .8 221 文本转语音 8 222 多种数据库访问8 223 多种语音平台互联9 224 高效管理 9 23 系统结构11 3 3、系统功能、系统功能 1111 31 数据查询与数据组织 11 32 文语转换和语音文件生成 12 33 TTS处理功能 12 34应用编程接口 13 4TTS应用特性 14 5 5、可开放的业务市场、可开放的业务市场 1616 51 按照行业

2、划分 16 52 按照业务划分为:16 6 6、系统配置、系统配置 1616 61处理单元的配置计算 16 62存贮总容量的计算方法: 17 7.7. 设备配置和报价清单(人民币元)设备配置和报价清单(人民币元) 1818 8 8结束语结束语 1919 附件:附件: 2020 1、引言 1.11.1 背景说明背景说明 数字化信息以及传播数字化信息的网络(特别是 Internet)正在 改变人们的生活方式和工作方式。众所周知,通过信息网络,用户可 以获得非常丰富的信息,可以享受到丰富的信息服务,可以自由地寻 找任何自己感兴趣的信息。任何一个获取数字化信息的产品、提供数 字化信息的服务和传播数字化

3、信息的媒介都因此变得越来越重要。信 息服务在作为第三产业发展最快的行业之一,因其包含极丰富的信息 以及方便快捷的信息查找而被全世界认同,并得到了迅猛的发展。为 了利用现有的可以进入千家万户的电话网络作为信息查询的终端,将 大量的数据库文件和文本文件自动转化成语音文件,提供更为广泛的 信息咨询服内容。 电话访问 WEB 站点和 E-MAIL 信息是一个面向大众提供企(事)业 单位基本信息的大型资料库,其内容十分丰富,用户可以通过多种方 式查询到感兴趣单位的信息,是企业面向市场、面向大众提供优质服 务的增值服务。 电话查询 WEB 信息和 E-MAIL 信息只能通过 168 台进行,所以对大 部分

4、企业用户来讲,文本资料要首先录制成语音文件,然后才能提供 服务,效率低、存储空间大,维护十分复杂,扩充困难。在此前提下, 如果使用全中文的自动文语转化系统,可以实时地将文本文件连续地 通过语音卡向用户提供语音信息。用户可以十分方便且快捷地查询到 自己感兴趣的信息,从而实现信息的价值。 由于文语转化系统提供了实时转化的功能,不仅节省了语音文件 的空间 1000 多倍,而且解决了一些无法进行实时录音的功能,减轻 了工作量,提高了实时性(信息的时效性) 。 1 12 2 项目说明项目说明 本项目名称为“TTSTTS系统(产品)项目开发” ,所要开发完成的系 统名称为“TTSTTS系统(产品) ” 。

5、 1 13 3 参考资料参考资料 1)TTSTTS产品的产品可行性分析TTSTTS产品组。 2)语音编码与文语转化关键技术研究TTSTTS产品组。 1.41.4 词语及缩写词语及缩写 TTSTTS - TEXT TO SPEECH 1 15 5 建设目标建设目标 系统是一个完整的平台,可以支持多种数据库和文本文件的同时 访问,可以与 160、163、168、169 等网络进行互联。系统能提供集 中式的文语转换功能、全文检索功能、格式转化功能,数据库访问功 能、以及二次开发功能等。 首期提供以下功能: 1、168 读取 E-MAIL 详细信息功能,并能语音回复功能 2、168 听取股票行情及趋势

6、分析预测功能 3、168 自动播放动态信息功能(如天气预报、节目预告、动态航班 等) 4、168 听取其他数据库功能,如 114 反查询、法人信息查询等 5、专项应用系统,如游戏节目中的自动语音提示等 6、168 听取 HTML 页面信息等。 2、系统总体概述 2.12.1 系统概述系统概述 所谓文语转换技术(Text-to-Speech,简称TTSTTS)指的是计算机自 动地把给定的文本信息转换成语音的过程。文语转换是复杂的语音处 理技术,是涉及语音学、语言学、数字信号处理和计算机科学等领域 的多学科综合性技术。文语转换技术把可视的文本信息转换为可闻的 声音信息,其应用范围非常之广,如文本的

7、有声校对,残疾人的辅助 发音,报纸的机器阅读,机器翻译等等。因此,文语转换技术,作为 一项理论性和实用性都很强的技术,倍受重视,在近十几年内得到了 迅速发展,目前已接近达到了实用化的水平,并在市场上获得成功。 TTSTTS技术和理论在不停地发展,其核心是如何提高合成语音的清 晰度和自然度,以及文本处理的智能特性。另一方面, TTSTTS技术的应 用也在不断深化,从计算机终端应用,如编辑文本的校对,发展到通 信网环境。 众所周知,通信网是不同媒体信息存储、交换、传输的载体和工 具,由于网络的覆盖面非常广阔,所以,借助于TTSTTS技术,把文本信 息转化为语音信号,在电信网传播,使用户利用电话终端

8、就可以听取 文本所携带的信息,对通信业务经营者和广大用户而言,都是很必要 的。例如,传统的 160,168 等信息服务业务都是用人的录音或业务 员来应答用户的信息查询,信息的维护不方便,影响服务质量。传统 的电子信函(E-mail)业务,都是利用计算机终端来接收的。如果能 够利用更普及的电话终端来“听一听” (而不局限在利用计算机的屏 幕来“看一看” )发信人说的是什么,该是多么地生动和方便!另外, 对于数据库存取业务而言,如邮电、银行、税务的智能网业务标准里 甚至把TTSTTS技术和 ASR 技术(自动语音识别)列为标准。 在通信网环境里, TTSTTS技术不但对技术开发商很重要,对业务运

9、营方也同样如此。传统的计算机语音集成应用系统,消息的组织和维 护都是由人来完成的,工作繁琐,维护不便,占用存储资源多(以语 音的 ADPCM 编码为例,一秒的语音需 4K 字节的存储,而以人说话速 度为 5 字/秒来计算,采用TTSTTS技术只需 10 个字节) 。 正因为这些原因,众多厂商和研究机构积极开展通信网环境下 的TTSTTS技术的研究和开发,包括美国的 Lucent、 Dialogic、 Centigram, VCS 和 Lernaut & Hauspie 等公司。 TTSTTS是一个专业级的中文(中/英文)全文检索系统,检索功能与 检索效率与国内外的软件相等,TTSTTS所处理的

10、资料以文本文件的资料 为主,对资料库的定义与定位与国内外的知名的资料库检索系统相似, 所以功能十分强大。TTSTTS是中国人根据自己的语音特色和规律开发出 来的,其发音的准确率和阅读的易懂性已经达到商业化。在TTSTTS核心 技术的基础上,我们增加了全文检索功能、数据库访问功能、E-MAIL 读取功能和详细的档案管理功能等,使之成为平台,用户可以在平台 的基础上,十分简单地增加新的业务,将新的服务轻松地在平台上得 以实现。二次开发的时间很短,开发效率的提高是看得见的。 由此可见,文语转换,作为一项新兴技术,把它嵌入在通信网 环境,对于开展增值业务,更新传统业务的实现方式,都很必要。 2 22

11、2 系统功能系统功能 产品系统主要提供文本文件实时转换为语音文件格式,提供给语 音卡放音。同时提供各种数据库的数据访问接口、与现有语音系统的 连接接口、高效的语音格式转化等功能。 系统由于采用了纯软件TTSTTS的解决方案,所以在价格低廉、功能 齐全、扩充容易、维护简单等特点。每台处理机可以同时处理 16 路 语音的文语转化,并可以简单地升级和积木式扩容。 文语转化提供的最终语音文件是目前我国最佳的语音方案之一, 具有国际 90 年代先进水平的语音编码技术,可以保证播放质量和播 放效果。文本识别率、多音多义分析等功能均达到了实用的水平,并 已经实际投入商用。 基本功能具有 4 大功能: 221

12、 文本转语音 主要提供将文本文件实时地转换成标准的语音文件,送到语音 平台指定的目录下,由语音平台按照文本对应的语音文件进行放音。 由于采用大量的预处理功能,使得文语转换后的语音文件能够容易被 人所听懂,且避免了大量语音文件的占用空间。 222 多种数据库访问 通过与 WEB-HTML、E-MAIL、DBF、BETRIEVE、SQL SERVER、SYBASE、ORACLE、INFORMIX、EXCEL 等数据的实时相连,可 以快速从数据库中将所需要的文件转化成文本文件,然后送给文语转 换处理。 223 多种语音平台互联 通过与中国使用的语音平台 (SUNTEK、BICOM、BST、IVS、Q

13、IAOXING 。 。 。 )相联,将用户的请求 转化为文本,同时将文本转化成对应格式的语音文件,然后交给语音 平台进行语音放音等,实现相应的功能。 224 高效管理 通过一些特殊的处理,使得整个系统的功能得到了优化,整体处 理速度得到提高,同时具有完善的信息服务功能和管理功能。 1.专业级检索功能 168 语音服务平音服务平台 查询信息 查询信息 查询信息 TTS 生成标准语音文件 向用户播放相关的语音信息 LAN 连接连接 数据库数据库 PSTN 连接连接 电话用户 图 1. 基于 TTS 的语音服务体系 1 2 3 4 5 6 2 23 3 系统结构系统结构 建立一套由数据库查询、数据组

14、织、文语转化、语音文件生成等 服务构成的原型系统。运行系统包括上述 4 个组成部分。在实际工作 中,可以在一台 NT 上运行。 一台 NT 可以同时服务 16 个用户的文语转化,以一个声讯系统同 时 20%的通道使用TTSTTS的功能,则可以服务 3 个 E1(90 线)规模的系 统。 3、系统功能 3 31 1 数据查询与数据组织数据查询与数据组织 主要提供四个功能: 语音工作站 1、实时访问语音服务系统的数据库,取得访问的数据资料; 2、根据取得的请求,向指定的数据库进行访问,取得相关的文本信 息; 3、将文本信息编码后放入流水库中,检查是否存在同样的语音文件。 4、如果没有对应的文本语音

15、,则将文本送交文语转换软件模块,如 果有对应的文本文件,则直接将文语语音送指定位置。 3 32 2 文语转换和语音文件生成文语转换和语音文件生成 通过专门设计的文语转换系统,实现将文本文件自动转化成标准 的语音文件。语音文件可以按照用户规定的格式进行自动转换。同时 将生成的语音文件发送到指定的目录下。提供给语音服务系统的放音。 3 33 3 TTSTTS处理功能处理功能 目前 DIALOGIC 公司基于 Antares 硬件的TTSTTS技术具有很多优势, 其中一个是软件结构的开放性和模块化。由于硬件结构分为 Antares 和 PC 主机两个层次,所以软件也相应分为二个层次:即运行在 Ant

16、ares 平台 DSP 上的TTSTTS算法固件,和运行在主机上的 Antares 设 备驱动程序,TTSTTS应用编程接口和开发商的特定应用程序,其中,运 行在 Antares 平台上的中文TTSTTS的固件包括三部分:TTSTTS算法,SPOX 和 Antares 内核。TTSTTS算法这里不作论述。 SPOX 是一个实时嵌入式的 DSP 操作系统,支持多任务和 OSP 资源 的调度与分配,如内存等的申请和释放。Antares 内核用来把功能单 元和 DSP 的底层硬件分隔开,便于资源的管理和使用。SPOX 和 Antares 内核有助于开发多通道的通信领域的中文TTSTTS技术。这三部 分模块有机结合在一起,形成 DSP 可识别的、可下载的公共目标代码 格式文件(COFF) 。用户的应用程序,涉及的中文文语转换操作是在 提供的开放的TTSTTS API 基础上开发的,而与电信网的接口处理,包括 DTMF 的检测,信号的产生、信今的处理,交换和接续的控制

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号