基于主动学习的双语资源缺乏语言对的统计机器翻译研究

上传人:jiups****uk12 文档编号:38364210 上传时间:2018-05-01 格式:PDF 页数:56 大小:2.92MB
返回 下载 相关 举报
基于主动学习的双语资源缺乏语言对的统计机器翻译研究_第1页
第1页 / 共56页
基于主动学习的双语资源缺乏语言对的统计机器翻译研究_第2页
第2页 / 共56页
基于主动学习的双语资源缺乏语言对的统计机器翻译研究_第3页
第3页 / 共56页
基于主动学习的双语资源缺乏语言对的统计机器翻译研究_第4页
第4页 / 共56页
基于主动学习的双语资源缺乏语言对的统计机器翻译研究_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《基于主动学习的双语资源缺乏语言对的统计机器翻译研究》由会员分享,可在线阅读,更多相关《基于主动学习的双语资源缺乏语言对的统计机器翻译研究(56页珍藏版)》请在金锄头文库上搜索。

1、 分类号 UDC 密 级 学 号 硕士学位论文硕士学位论文 基于主动学习的双语资源缺乏语言对基于主动学习的双语资源缺乏语言对 的统计机器翻译研究 的统计机器翻译研究 张张 萌萌 学学 科科 门门 类:类: 工工 学学 学学 科科 名名 称:称: 检测技术与自动化装置检测技术与自动化装置 指指 导导 教教 师:师: 郑岗郑岗 教授教授 杜金华杜金华 副教授副教授 申申 请请 日日 期:期: 2014 年年 3 月月 基于主动学习的双语资源缺乏语言对的统计机器翻译研究 张萌张萌 西安理工大学 西安理工大学硕士学位论文 II 西安理工大学硕士学位论文 IV Key words: Statistica

2、l Machine Translation;Active Learning;Web Scraping; Informative sentences;Sentence selection algorithm 目录 I 目目 录录 1 绪论 . 1 1.1 研究背景及意义 . 1 1.2 统计机器翻译 . 2 1.3 国内外研究现状 . 5 1.4 论文的组织结构 . 6 2 Web 数据获取技术研究 . 7 2.1 Web 数据采集技术 . 7 2.2 基于 Python 的 Web 数据抓取 . 8 2.2.1 网页抓取 . 8 2.2.2 网页爬虫 . 8 2.2.3 HTTP 交互模块 .

3、 9 2.2.4 HTML 解析模块 . 10 2.2.5 正则表达式 . 11 2.3 系统实现 . 12 2.4 运行结果 . 13 2.5 本章小结 . 15 3 基于主动学习的双语数据获取方法研究 . 17 3.1 主动学习概述 . 17 3.1.1 基本思想 . 17 3.1.2 算法分类 . 17 3.1.3 采样策略 . 18 3.2 基于主动学习的双语平行数据获取框架 . 19 3.2.1 算法描述 . 19 3.2.2 框架介绍 . 19 3.3 富含信息量的句子选择算法 . 20 3.3.1 几何短语(Geom-phrase) . 21 3.3.2 几何 n 元文法(Geom n-gram) . 22 3.3.3 句子困惑度(ppl) . 23 3.4 实验 . 23 3.4.1 实验设置 . 24 3.4.2 评价标准 . 26 3.4.3 结果及分析 .

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号