双语言多模式的对话应用

上传人:j****9 文档编号:47059896 上传时间:2018-06-29 格式:PDF 页数:7 大小:487.78KB
返回 下载 相关 举报
双语言多模式的对话应用_第1页
第1页 / 共7页
双语言多模式的对话应用_第2页
第2页 / 共7页
双语言多模式的对话应用_第3页
第3页 / 共7页
双语言多模式的对话应用_第4页
第4页 / 共7页
双语言多模式的对话应用_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《双语言多模式的对话应用》由会员分享,可在线阅读,更多相关《双语言多模式的对话应用(7页珍藏版)》请在金锄头文库上搜索。

1、 1 雙 語 言 多 模 式 的 對 話 應 用雙 語 言 多 模 式 的 對 話 應 用 黃 國 晉 陳 志 全 資 訊 工 業 策 進 會 資 訊 工 程 研 究 所 kchiniii.org.tw; astelyiii.org.tw 摘 要摘 要 在 考 量 日 常 的 應 用 、 與 邁 向 日 益 世 界 化 的 趨 勢中 , 除 了 中 文 外 英 語 的 使 用 族 群 也 不 容 忽 視 。 因此 , 建 置 雙 語 言 多 模 式 的 對 話 系 統 的 需 求 也 隨 之 提高 。 現 階 段 的 語 音 對 話 系 統 , 多 為 單 一 語 言 , 在 實際 應 用 上

2、 略 顯 不 足 。 在 本 系 統 所 研 發 雙 語 言 的 對 話系 統 , 對 話 過 程 中 可 以 同 時 使 用 兩 種 不 同 語 言 , 可以 更 加 符 合 使 用 者 需 求 。 不 同 語 言 的 語 音 辨 識 , 因 為 語 音 與 語 言 特 性 的不 同 , 辨 識 理 解 技 術 也 會 有 所 差 異 ; 我 們 延 續 我 們原 本 中 文 辨 識 理 解 技 術 , 更 進 一 步 擴 展 到 雙 語 言 的辨 識 理 解 與 對 話 技 術 。 在 本 雙 語 言 對 話 系 統 中 , 包含 的 特 色 有 : 語 言 移 植 、 雙 語 言 的 語

3、 音 辨 識 模 型 訓練 、 語 言 概 念 模 型 統 計 與 語 言 產 生 規 則 、 語 音 合 成及 對 話 系 統 建 置 、 採 用 個 別 獨 立 的 搜 尋 策 略 。 並 且這 樣 的 人 機 介 面 技 術 可 運 用 在 資 訊 查 詢 、 娛 樂 、 教育 等 不 同 服 務 上 , 並 可 開 發 於 PDA、 手 機 、 車 用 電腦 等 不 同 裝 置 上 的 應 用 。 關 鍵 字關 鍵 字 : 雙 語 言 (bilingual)、 多 模 式 (multi-modal) 對 話 管 理 (dialogue manager) 1. 緒 論緒 論 隨 著 科

4、技 的 發 展 與 網 際 網 路 的 發 展 , 人 們 所 能得 到 的 資 訊 也 越 來 越 多 。 然 而 對 於 不 熟 悉 電 腦 的人 , 不 友 善 的 人 機 介 面 仍 是 他 們 悠 遊 於 網 際 網 路 的最 大 障 礙 。 不 友 善 的 使 用 介 面 不 僅 讓 使 用 者 感 到 挫折 , 甚 至 讓 有 些 人 對 使 用 電 腦 覺 得 反 感 與 恐 懼 。 因此 , 口 語 對 話 1這 種 最 方 便 、 自 然 、 不 需 要 特別 學 習 就 能 使 用 的 溝 通 方 式 , 最 為 人 們 所 接 受 。 在 一 般 日 常 生 活 的 對

5、 話 中 , 或 多 或 少 都 會 產 生中 英 夾 雜 的 對 話 , 例 如 : 我 想 看 有 關JAVA 的 文件 、 我 想 查 David 的 e-mail address、 這 附 近 哪 裡 有Seven-Eleven .等 。 所 以 倘 若 語 音 辨 識 只 有 單 一 種語 言 , 在 實 際 應 用 中 可 能 略 顯 不 足 。 除 此 之 外 , 若系 統 只 能 單 以 語 音 為 輸 入 的 唯 一 方 式 , 可 能 會 產 生一 些 缺 失 。 例 如 , 由 於 語 音 辨 識 可 能 會 發 生 辨 識 錯誤 的 結 果 , 若 在 錯 誤 發 生

6、的 時 候 若 沒 有 其 它 輔 助 的輸 入 模 式 , 可 能 比 較 難 提 供 可 靠 的 服 務 或 是 讓 對 話變 的 冗 長 , 讓 使 用 者 感 到 不 耐 。 相 反 的 直 接 單 以 語音 當 輸 入 方 式 時 , 雖 然 介 面 會 比 較 友 善 , 但 卻 不 一定 是 最 有 效 率 的 輸 入 方 式 。 例 如 , 當 系 統 問 使 用者 , “請 問 您 想 聽 誰 的 歌 ?”時 , 使 用 者 雖 然 可 以 直接 用 語 音 回 答 , 若 使 用 者 不 知 道 歌 名 , 只 想 輸 入 知道 的 歌 手 名 。 此 時 系 統 可 以

7、同 時 呈 現 按 鈕 選 項 , 讓使 用 者 可 以 直 接 選 擇 歌 手 名 稱 。 透 過 按 鈕 的 動 作 直接 選 擇 , 及 多 種 的 輸 入 方 式 讓 系 統 執 行 起 來 更 有 效率 2。 因 此 , 本 系 統 研 發 雙 語 言 多 模 式 的 對 話 系 統 ,克 服 不 同 語 言 的 特 性 問 題 , 採 用 不 同 個 數 的 聲 學 模型 單 位 來 表 示 不 同 語 言 的 標 音 , 並 利 用 不 同 的 辭 典樹 (lexicon tree) 、 搜 尋 空 間( search space) 及搜 尋 限 制 (search constr

8、aint), 透 過 中 、 英 文 語2 音 辨 識 引 擎 來 達 成 中 英 文 的 混 合 辨 識 。 辨 識 完 成 之後 , 再 利 用 結 合 Grammar 的 方 式 修 正 辨 識 結 果 ,以 了 解 輸 入 語 意 。 並 提 高 辨 識 成 功 率 完 成 對 話 流程 , 增 加 語 音 辨 識 技 術 的 實 用 性 。 2. 相 關 技 術 背 景 :相 關 技 術 背 景 : 我 們 用 圖 一 表 示 一 般 語 音 對 話 系 統 的 流 程圖 , 使 用 者 經 由 語 音 輸 入 需 求 , 經 過 語 音 辨 識 、 語言 理 解 , 再 經 過 對

9、 話 管 理 的 機 制 , 產 生 或 尋 找 使 用者 的 需 求 , 在 經 由 適 當 的 方 式 回 應 給 使 用 者 , 例 如語 音 合 成 。 在 這 架 構 中 , 包 含 了 口 語 對 話 系 統 的 關鍵 技 術 : 語 音 辨 識 、 語 意 理 解 、 對 話 管 理 、 語 音 合成 等 。 本 章 節 就 對 多 模 式 語 音 對 話 管 理 的 相 關 技 術做 說 明 : 圖 一 、 對 話 流 程 圖 2.1. 語 音 辨 識語 音 辨 識 (Automatic Speech Recognition -ASR) 語 音 辨 識 首 先 須 先 建 立

10、語 音 模 型 , 來 作 為 比 對的 依 據 。 方 法 為 :先 藉 由 大 量 的 語 料 , 訓 練 出 精 細的 語 音 聲 學 模 型 (acoustic model) 或 語 言 模 型(language model), 我 們 可 以 透 過 這 些 模 型 設 計出 , 關 鍵 字 (keyword spotting)辨 認 的 語 音 辨 識 引擎 或 是 大 字 彙 (large vocabulary)連 續 語 音 辨 識 引 擎3,4。 語 音 辨 識 模 組 就 是 利 用 這 些 辨 識 引 擎 , 讓 輸入 的 語 音 訊 號 , 辨 識 成 一 連 串 的

11、音 節 或 是 單 字 , 稱之 為 格 狀 詞 組 (word lattice/word graph)或 是 格 狀 音標 組 (syllable lattice/ syllable graph)6, 之 後 再 對 這些 格 狀 詞 組 或 格 狀 音 標 組 , 做 關 鍵 字 的 辨 識 或 大 字彚 的 辨 識 。 基 本 流 程 如 圖 二 所 示 。 Input SpeechFeature VectorsOutput SentenceFront- end Signal ProcessingFront- end Signal ProcessingAcoustic/Linguisti

12、c Decoding and Search AlgorithmAcoustic/Linguistic Decoding and Search AlgorithmAcoustic ModelsAcoustic ModelsLanguage ModelLanguage ModelText CorporaText CorporaSpeech CorporaSpeech Corpora圖 二 .ASR 基 本 流 程 2.2. 自 然 語 言 理 解自 然 語 言 理 解 (Natural Lnaguage Understanding - NLU) 在 對 話 系 統 中 自 然 語 言 理 解 佔

13、有 重 要 的 地位 , 因 為 在 對 話 的 過 程 當 中 , 必 須 要 能 夠 理 解 使 用者 的 語 意 , 才 能 得 到 使 用 者 的 需 求 進 而 做 更 進 一 步的 對 話 。 因 此 自 然 語 言 理 解 和 處 理 5依 然 是 大 家所 研 究 的 課 題 。 2.3. 對 話 管 理對 話 管 理 (Dialogue Manager - DM) 在 經 過 語 音 辨 識 、 自 然 語 言 理 解 後 , 系 統 了解 、 得 到 使 用 者 的 需 求 或 意 圖 , 進 而 對 這 些 需 求 會產 生 一 些 事 件 , 對 話 管 理 機 制 6

14、就 是 針 對 這 些 事件 產 生 相 對 應 的 回 應 , 例 如 使 用 者 所 提 供 的 資 訊 有所 欠 缺 , 對 話 管 理 會 再 依 其 所 需 要 的 資 訊 再 次 做 詢問 , 在 這 一 問 一 答 的 過 程 中 , 形 成 了 對 話 流 程 , 系統 也 得 到 所 需 的 資 訊 。 2.4. 語 音 合 成語 音 合 成 (Text to Speech - TTS) 在 使 用 者 與 電 腦 的 對 話 過 程 中 , 若 要 使 用 語 音還 回 應 使 用 者 , 有 兩 種 方 法 來 產 生 回 應 的 語 音 : 一是 用 預 錄 的 方 式

15、 , 就 是 把 要 回 應 給 使 用 者 的 聲 音 資料 事 先 錄 製 , 需 要 時 在 將 適 合 的 檔 案 合 併 , 組 成 需要 的 語 句 後 , 再 撥 放 檔 案 。 另 一 種 是 用 文 字 轉 語 音技 術 (TTS)6來 產 生 語 音 , 經 由 輸 入 的 文 字 經 由TTS 技 術 , 轉 換 成 聲 音 撥 放 。 另 外 在 使 用 者 的 介 面 上 , 我 們 也 採 取 了 人 臉 合成 技 術 (Talking Head)7。 人 臉 合 成 技 術 簡 單 來說 , 就 是 一 個 能 夠 展 現 說 話 嘴 型 的 一 個 圖 形 介

16、面 ,通 常 是 用 一 個 人 或 動 物 的 臉 , 或 是 卡 通 人 物 造 形 的圖 案 來 表 現 , 經 由 人 物 的 嘴 型 和 語 音 的 聲 調 做 配 合的 技 術 , 展 現 出 說 話 的 動 作 , 讓 增 加 使 用 者 對 系 統對 話 的 興 致 。 在 本 系 統 中 , 我 們 採 用 甲 尚 科 技 8的 Talking Head 技 術 , 並 整 合 了 TTS, 形 成 多 模 式3 的 輸 出 。 3. 雙 語 言 系 統 建 置 挑 戰 及 策 略雙 語 言 系 統 建 置 挑 戰 及 策 略 在 之 前 雙 語 言 的 語 音 辨 識 系 統 中 , 有 的 做 法 是在 系 統 起 始 之 初 , 詢 問 使 用 者 欲 使 用 的 語 言 。 在 使用 者 選 擇 之 後 , 就 以 單 一 語 言 辨 識 執 行 。 另 一 種 做法 , 我 們 以 圖 三 的 架 構 圖 9來 說 明 , 是 在 系 統 一開 始 ,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号