云创智能会议转写系统解决方案

枫**

实名认证

店铺

DOCX

119.50KB

约16页

文档ID:532520317

1/16页

点击查看更多>>

文本预览下载提示常见问题

智能会议转写系统解决方案南宗壬创大數据科技股InSDSDaNanjing Innovative Data Te亡hnologiesjln匚.2019年3月目录I需求背景 3丄建设目标 3'技术方案 34系统拓扑图 4E语音识别技术 9力系统功能 12存I现场转录、实时投屏 12音频转写 13门〕同步校正 13■1.-个人词库 14'1 ■-文本训练 14语音输入，实时滚屏播放 157系统价值 167 I提升会议效率 16提升工作效率加快处理流程 16? '提供智能分析结果 16提供后台管理功能 16:提供智能化扩展功能 161需求背景在各类会议中，需要形成文字版会议记录，便于事后追溯或跟踪现有的人工听写方式受限于记录员的业务熟练程度和打字速度，记录效率较低在会议中应用智能语音识别技术，能够将语音实时转成文字，会议结束即可成稿，可极大降低对记录员业务素质的要求，减轻记录员工作强度会议过程中，会产生大量的文字及媒体文件，通过无纸化办公系统，可大量的节省会议资料的成本，使得会议的进行更加有效率2建设目标按照“智慧、创新”的总体思路，充分运用云计算、大数据等智能化技术，围绕智能语音识别技术与会议场景的深度融合，将会议的全过程进行语音转写，对所得的电子记录数据进行有效的管理、分析、利用。

全面推进会议向智能化方向发展智慧”：将智慧化发展理念与会议场景的实际需求相结合，通过智能语音识别技术替代会议记录人工录入，创新的将智能语音识别技术与会议场景进行深度融合，提高工作效率，解放速记员，将会议记录从“手动录入”向“自动录入” 进行升级创新”：紧密围绕会议业务需求，积极探索基于大数据、人工智能等新技术的应用，实现信息化建设“技术创新”全过程数字化：通过会场讲话实时转写或会议录音离线转写成电子文本化文件，实现会议记录全过程的数字化，确保会议记录的真实、完整3技术方案云创智录系统基于内部专网上构建智能语音识别平台，提供语音识别基础支撑服务，并在此基础上构建云创智录系统通过针对不同地区、不同种类会议的定制化语音识别模型和自定义关键词识别优化工具，可以有效提升对每次会议的语音识别准确率，为提升会议效率和工作效率提供强有力的技术支撑系统采用私有云的形式进行部署，与外网实现物理隔离,保障数据的安全性能实现会议中参会人员语录的实时自动分角色语音转写，并将转写结果实时展现在云创智录系统软件的管理界面上，以便于书记员同步查看和用词条修正的操作来校正转写出现错误的内容会议录音在会议结束后自动保存在系统里，书记员也可以通过回听历史会议的录音记录来校对转写结果。

■1系统拓扑图网络版会议转录系统由服务器和会议室音频采集设备组成，能够支持多个会议室同时接入（支持扩容）每个会议室需部署会议麦克风、音频处理器和高清音视频会议主机，例如：8路音频处理器可以接入8个鹅颈式会议麦克风会议秘书通过秘书电脑访问智能会议业务系统，控制会议的实时转写麦克风到音频处理器之间传输距离支持300m以内，系统拓扑图如下图所示：干兆交换机叫竭「书记员电脑智能语音识别JK蠢器上述硬件产品相关描述与介绍如下:产品名称产品描述音频处理器功能描述：根据实际情况，提供8进8出型号，采用平衡式话筒\线路输入，以及裸线接口端子主要为现场麦克风等拾音设备供电，以及提供混音功能，将模拟音频信号混音输出；设备参数：无需光盘，设备自带安装软件；120db的A/D与D/A转换，最咼可达96kHz/48K米样率咼速DSP处理芯片Ti 450MHz FLOPS DSP处理内核输入源：输入方式可切换平衡话筒或线路，采用凤凰插接口；量化位数：24bit；采样率:48K幻像供电：DC 48V ；频率响应：20~20KHz总谐波失真+噪声：V 0.002% @1KHz ,4dBu数/模动态范围（A-计权）：120dB模/数动态范围（A-计权）：120dB输入阻抗（平衡式）：20KQ；最大输出阻抗（平衡式）：100Q；工作温度：0-40°C；工作电源：AC110V-220V,50Hz/60Hz；机箱尺寸：482*258*45（mm））；电源功耗：＜70W运输重量：4Kg尺寸（宽 x 深 x 高）：483*250*44.5（mm）通道隔离度：1kHz, 100dB输入共模抑制，60Hz, 80dB等效输入噪声EIN （20-20kHz, A计权）.W-131dBU最大输出电平：+24dBu,平衡最大输入电平：+24dBu,平衡模拟输入至模拟输出系统延时：3ms底噪（A-计权）：-90dBu咼清音视频会议主机功能描述：在会议场景中，主要接入上游输入的音频模拟信号，进行模/数转换，将数字音频信号输出给智能语音识别服务器供智能转写。

设备参数：设备采用标准机柜式结构设计，主机厚度不得超过1U设备内置3块VFD信息显示屏，实时显示光驱及硬盘刻录状态设备支持4路高清视频输入，支持SDI或网络信号输入，具有4路SDI接口，同时具有VGA、HDMI输入接口；具有HDMI和VGA同时输出接口，分辨率均达到 1920*1080, HDMI与VGA可以同时输出相同合成画面，也可同时输出不同合成画面设备可支持各通道单画面、画中画、三画面、四画面显示模式设备视频编码采用H.264, High Profile的视频编码标准单画面分辨率大于704像素X576像素，传输码流大于等于512Kbit/s,硬盘存储视频帧率大于等于 25fps,应能实现讯问过程的网络直播、音文交互、讯问现场场景的选择设备含有2路音频输入接口，音频编码采用AAC采样编码，同时含有1路以上（含1路）音频输出接口设备脱离PC平台，采用嵌入式操作系统，集光盘刻录、视频显示、硬盘备份、网络传输等功能于一体，安全稳定、简单实用设备内置双光驱，将录播现场的音像信息，实时同步直接刻录在光盘中并且在刻录前自动格式化并检测光盘有效性，对不符合刻录要求的光盘自动弹出，刻录结束后自动封盘。

设备内置500G硬盘，对录播现场的音像信息，实时同步备份，确保数据信息安全存储，同时支持外接移动硬盘进行实时同步刻录设备采用双光驱，支持直刻支持，支持4.7G单层、单面双层8.5G实时刻录使用标准4.7G容量DVD光盘, 刻录时间1小时至24小时任选设备具备更换光盘时视频时间不间断功能模式，第一光盘刻录完成后，重新放入第二张光盘，系统会把更换光盘时的录像刻录到第二张光盘内，实现前后两张光盘的视频时间不间断,双光盘刻录时支持无断点换盘模式，更换光盘时的录像不会丢失设备支持哈希值计算，光盘停止刻录后即生成视频文件唯一哈希值，并写入光盘，可快速出盘，出盘时间不大于1分钟设备内置高清录播采集模块，可以支持1280 X 1024、 1920X1080高分辨率,不低于25帧/秒的视频证据采集设备支持合成画面1920X1080，不低于25帧/秒高清分辨直刻设备支持网页对设备工作状态监测，及控制刻录等设备可设置定时录像，也可设定第一光驱刻录时间，第二光驱在第一光驱接近封盘时，自动启动刻录设备支持音频信号模拟成动态的可视化图形，同步显示在视频画面中，可即时了解音频信息米集状态设备可灵活调整显示内容的背景、颜色、位置、显示停留时间等。

设备可以本机直接播放光盘视频，提供暂停，快进等功能设备录制的视频为通用格式，通用播放器可以播放，方便录播示证使用音视频单文件刻录存储确保光盘文件连续性，通用视频格式文件记录，可采用影音，暴风影音MEDIA PLAYER等播放器播放刻录光盘内置重点标记索引，在设备播放时，可以选择重点标记，设备会自动定位到录播中重点标记时间进行播放设备可提供WEB服务，用户通过浏览器可远程同步实时观看录播现场场景，并可以和前端录播人员进行单向语音对讲设备可防止在使用过程中因外界的影响造成录播同步刻录数据的丢失意外断电重启后，无需更换光盘，以非硬盘导刻方式把原来的光盘恢复回来，保证光盘数据的可靠性两台设备间，支持远程双向音视频通话，也可以通过H.323与视频会议终端进行音、视频通讯，实现录播功能设备具有2路以上（含2路）USB2.0接口，支持外接USB键盘输入中文，内置文字记录软件，可在设备上做简单文字记录，也可通过计算机网络访问设备，在远程 WEB界面做远程文字记录设备具有2路以上（含2路）lOOMbps/lOOOMbps自适应网口，支持网络拓展应用智能语音识别服务器功能描述：提供语音识别能力，将数字音频信号转写成文字，通过以太网线，将文本文字传至上层会议系统应用中展现；同时提供会议系统服务，以及会议系统各项功能，详见6.2网络版会议转录系统功能介绍。

推荐配置：（CPU核心数依实际生产场景并发数确定）系统版本：centos6.7硬件参数：CPU 类型：至强 lntel（R）Xeon（R）CPU 型号：Xeon D-1521CPU 频率：2.40GHzCPU核心：4核心（8线程）内存类型：DDR4内存容量：128G （4*32GB单条）硬盘接口： SATA3.0/M.2 硬盘容量：250GB SSD 网络接口： 3个千兆网口 USB 接口： USB3.0 2 个 VGA输出接口： 1个电源类型：热插拨电源电源数量：1个电源功率：400W会议室内的麦克风输入的模拟信号声音通过声卡、高清音视频会议主机转换为数字信号，将音频最终输出到智能语音识别服务器上在会议室原有的秘书电脑上通过智能会议转录系统控制会议语音转写，并对会议信息、会议记录进行编辑和管理智能语音识别服务器负责将音频识别为文字，发送给秘书电脑上的客户端软件会议秘书通过客户端软件可以实时查看、编辑、修改识别出的文字内容会议参会人员可通过高清会议显示屏，查阅各类多媒体资料以及文档资料以语音识别技术语音识别原理语音识别是机器通过分析和理解，将人类语音中的词汇内容转换为计算机可读的输入的过程，例如按键、二进制编码或者字符序列。

典型的语音识别的框架，有三个重要的组成部分：模型训练、前端语音处理、后端识别处理语音识别系统原理框图如下：图10语音识别技术原理图功能特性语音识别支持8k和16k频率的多种音频格式http服务支持的语音格式如下表：音频格式备注pcm16K16bit16k16bit录音数据，pcm8K16bit8k16bit录音数据ulaw16K8bit16k8bit u-law录音数据ulaw8K8bit8k8bit u-law录音数据alaw16K8bit16k8bit a-law录音数据alaw8K8bit8k8bit a-law录音数据socket服务支持的语音格式如下表:8K模型pcm8k16bitalaw8Kulaw8Kvox6K4bitvoc8K4bitGSM610v36K4bit16K模pcm16K16bitWebService服务支持语音格式如下表:音频格式备注pcm8K16bit8k16bit录音数据vox6K4bit6k4bit vox录音数据vox8K4bit。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档