【通用】听见智能会议系统建设方案(一体机)剖析

资源描述

《【通用】听见智能会议系统建设方案(一体机)剖析》由会员分享，可在线阅读，更多相关《【通用】听见智能会议系统建设方案(一体机)剖析（15页珍藏版）》请在金锄头文库上搜索。

1、听见智能会议系统听见智能会议系统建设方案建设方案安徽听见科技有限公司安徽听见科技有限公司 20162016 年年 1010 月月目录 1.1.项目概述项目概述1 1.1.建设背景1 1.2.建设重要性1 2.2.建设内容及目标建设内容及目标 1 3.3.产品施工条件产品施工条件2 4.4.系统连线图系统连线图2 5.5.建设方案建设方案4 5.1.系统概述4 5.2.软件详细配置6 5.2.1.中文语音转写引擎.6 5.2.2.应用系统基本功能.7 5.2.2.1.用户管理7 5.2.2.2.音频采集处理7 5.2.2.3.实时语音转写7 5.2.2.4.历史语音转写7 5.2.2.5.

2、内容编辑8 5.2.2.6.效果优化9 5.2.2.7.内容展示9 5.2.2.8.内容管理10 5.2.2.9.全文检索10 5.3.硬件设备配置11 5.3.1.一体式智能会议主机.11 5.3.2.应用端主控电脑.12 6.6.项目报价项目报价12 第 1 页 1.1. 项目概述项目概述 1.1.1.1.建设背景建设背景随着信息时代的到来，海量语音的获取和存储能力愈发强大，基于会议办公的实际场景，会存在需要大量的人力投入、工作效率不高的情况、语音技术在会议场景中的应用质量和效果不高。因此，结合会议会务场景对语音技术的实际应用需求，开展了基于会议场景下的语音技术应用关键技术研究，

3、突破语音合成、语音识别、语音转写等核心技术，提升语音技术在会议会务场景中的应用水平，切实提升日常会议办公的工作效率和效果。 1.2.1.2.建设重要性建设重要性语音识别（Speech Recognize ）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来，语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发，可满足会议

4、演讲、会议研讨、沟通交流、大型会议等一系列需要进行实时文字转写的场景。此部分项目的实施主要解决会议记要整理时间长、会议中心思想因记录人员的理解而可能出现的偏差、会议录音及关键点难以查找等问题。项目建成后当天即可完成所有相关会议记要的整理工作，同时，每一个人的发言均可记录在纪要当中，可有效减少因不同原因造成的会议中心内容理解的偏差，提升纪要整理的效率。 2.2. 建设内容及目标建设内容及目标本项目计划选取 1 个会议室分别部署单机版听见智能会议系统，进行基于会议场景下的新型语音转写技术的应用，实现会议过程中音频实时转写成文字，辅助会议记录人员进行纪要的整理与校正，实现快速成稿，在

5、整体上打造样板化智能语音转写会议室。第 2 页 3.3. 产品施工条件产品施工条件环境要求单机版智能会议系统采用专业定制一体机的硬件形态，一体机的安装机柜需要 6U 空间，安装于正常室外室内即可，设备深度为 500MM，系统本身局域网组建自带，网络带宽在 100M 以上，主控 PC 需要连接局域网下使用，整套设备局域网下运行即可。同时需要 1.5KW 电源。音视频需求该系统是基于音频基础上实现语音转写，麦克风等音响设备利用会议室现有环境。为实现对现场音频的采集，需要现场音响设备（调音台或相关音频设备）提供会议话筒音频供转写，同时设备接口支持卡侬公、大三芯（6.5）、双莲花

6、输入；如需单独外接显示，支持接口为 HDMI 或 VGA。如有展板上屏需求，需要会议室内配有投影仪或者电视机，且具备 VGA 或者 HDMI 接口任意一种，展板通过连接投影仪或者电视机进行投屏展示。 4. 系统连线图本项目拟购的一体式智能会议系统，其硬件形态为：通过国家 CCC 认证和专业定制一体机+编辑段主控电脑。教室现场的发言音频输出给一体机，同时如需显示，一体机支持显示输出，主控电脑通过网线与一体机连接，整套产品即可使用。一体机整体外观图示意如下：第 3 页一体机机器后面板及接口图示意如下：参数说明：参数说明：整机电源：AC 100-240V 700W；服务器节点：

7、XEON 2.6G 20M 2011P 8CORE，E5-2620 V3*2；32G DDR4 REG/ECC；接口 2* 千网口（ Intel I210AT ），1* RS232，GPIO，Watch dog，VGA-切换器；USB：6*USB(前置 1*USB2.0+后置（2*USB 2.0/2*USB 3.0）; 应用节点：CORE 3.2G 6M 1151P 4 CORE I5-6500；8G DDR4，2*千兆网口（ Intel 82579V ） 1*千兆网口（ Intel 82579V ），1*RS 232，1*VGA，1*PS2，外接：DVI转 HDMI; 坦克声卡：一个麦克风输

8、入并自带音量增益旋钮,XLR/6.3mm混合式接头一个乐器输入并自带音量增益旋钮,6.3mm接头 4个模拟输入(RCA接头) 一组唱盘输入并内建 RIAA等化放大及自带音量增益旋钮 6个模拟输出(RCA接头) 一个耳机接孔(6.3mm接第 4 页头)并自带音量增益旋钮一个光纤数字输出/输入一个同轴数字输出/输入一组 MIDI I/O 连线说明：连线说明：本产品为一体机形态，只需要接通一根电源线、一根音频线、一根视频线，并通过一根网线连接主控，就可使用。 5.5. 建设方案建设方案 5.1.5.1.系统概述系统概述听见智能会议系统由软件、硬件共同构成，实现在会议场景下的实时音

9、频或录音采集，并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料；并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果；同时，用户可以使用全文检索功能方便检索历史音频。系统具备会议音频管理、即时校对编辑、敏感词屏蔽、转写文字实时直播等基本功能。第 5 页一体机主控电脑实时字幕麦克风系统整体配置清单如下：类类别别描述描述数数量量单单位位语音识别转写引擎智能中文连续语音识别转写引擎，实现对普通话连续语音的实时转写，并提供对已转写文字的后处理及字音同步对齐能力 1套软件会议管理系统智

10、能会议管理系统应用软件，实现历史音频转写、实时编辑、自动分段、关键词优化、禁忌词屏蔽、语气词过滤、全文检索、重点内容标记、按句回听、用户权限管理、会议信息管理、内容导出等功能 1套一体机专业定制一体式会议主机。 NODE1：2*E5-2620V3 2.6GHZ/32G/800G*3 SATA 10K rpm +raid5/1*USBkey+3*USB2.0/1000M NIC； NODE2：Intel Core i5/8G 内存/500G SATA 7200 rpm/VGA+HDMIDVIDP/3*USB2.0/1000M NIC； DMX 6Fire USBFast Track U

11、ltra 8R USB 音频接口 Route：3*LAN 接口+1*WAN 1台套硬件应用端主控电脑华硕 PRO453U，Intel Core i5-6200U 2.3GHz/8GB/Intel 500GB SATA/Intel HD Graphics 520 集显+Nvidia GeForce 920M 2GB 独显 1台第 6 页服务 1、提供首次上门安装、调试；2、提供系统使用培训；3、两次通过软件升级的方式提供效果优化；4、提供大会服务和移机安装服务。1 年 / 套 5.2.5.2.软件详细配置软件详细配置 5.2.1. 中文语音转写引擎中文语音转写引擎听见

12、智能会议系统需要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术，通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell 实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息，有史以来第一次实现了识别十个英文数字的语音识别系统-Audry 系统。八十年代，Bell 实验室的 Rabiner 等科学家将原本艰涩难懂的隐马尔科夫模型（Hidden Markov Model-HMM）理论工程化，形成了较为完善的概率统计模型体系，识别性能也得到了很大的提高。2006 年以来 Deep Learning 理论

13、和技术成为了模式识别领域的一个热门研究方向，G. E. Hinton 等深入研究了深度置信网络（Deep Belief Network-DBN）以及深度神经网络（Deep Neural Network- DNN）等模型结构，微软通过与 Hinton 合作率先将 DNN 应用于语音识别任务，识别性能取得了显著提升。此后谷歌、蒙特利尔，以及 IBM 又将循环神经网络（Recurrent Neural Netwok-RNN）成功应用于语音识别领域，特别是长短时记忆（Long-Short Term Memory）神经网络结构，取得非常出色的语音识别性能。加上目前图形处理器（GPU）计算能力的

14、提升，以及互联网时代大规模标注数据获取成为可能，基于深度学习的语音识别技术已经在多个领域达到实用水平。传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互，听见智能会议系统需要基于机器语音识别技术构建语音转写引擎。听见智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力，具体包括中文语音转写引擎与英文语音转写引擎，本系统需要完成中文语音转写引擎的建设。第 7 页 5.2.2. 应用系统基本功能应用系统基本功能听见智能会议系统，可以实现在会议、教学、演讲等场景下的实时音频或录音采集，并通过语

15、音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料；并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果，可人工进行角色分离；同时，用户可以使用全文检索功能方便检索历史音频。 5.2.2.1.5.2.2.1. 用户管理用户管理听见智能会议系统采用账号密码登录，在提升用户安全体验的同时，分账号进行管理；系统可根据需要配置提供管理员账号和普通账号，管理员账号可查看全部列表内容，普通账号仅支持查看当前账号下的内容。不同账号间的数据进行逻辑和物理隔离，保证数据安全性和私密性；满足用户不同用户、不同权限的管理需求。 5.2.2.2

16、.5.2.2.2. 音频采集处理音频采集处理听见智能会议系统需要通过对实时音频流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作，需要由强大的音频采集处理模块。系统讲通过使用特定的录音服务，通过麦克风收集后，送达后台服务端完成编码工作，实时上传到系统，供后续的转写文字等功能使用，同时保存到内容管理模块中。 5.2.2.3.5.2.2.3. 实时语音转写实时语音转写系统通过专业麦克风对会议全程进行高保真录音,并针对连续中文语流进行实时语音转写识别，并持续进行转写结果文本内容的输出。 5.2.2.4.5.2.2.4. 历史语音转写历史语音转写相比于实时语音转写模块，历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力；用户可以通过系统提供的功能按钮，导入历史音频并实现快速离线转写；支持音频批量导入。第 8 页图：历史音频转写编辑效果图 5.2.2.5.5.2.2.5. 内容编辑内容编辑在实时语音转写过程中用户可以实时对转写出的文本结果进行编辑，并进行重点内容标记。在实时编辑的过程中采用延时播放的策略，用

展开阅读全文