基于MapReduce模型的中文

上传人:jiups****uk12 文档编号:57437012 上传时间:2018-10-21 格式:PPT 页数:13 大小:678.01KB
返回 下载 相关 举报
基于MapReduce模型的中文_第1页
第1页 / 共13页
基于MapReduce模型的中文_第2页
第2页 / 共13页
基于MapReduce模型的中文_第3页
第3页 / 共13页
基于MapReduce模型的中文_第4页
第4页 / 共13页
基于MapReduce模型的中文_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《基于MapReduce模型的中文》由会员分享,可在线阅读,更多相关《基于MapReduce模型的中文(13页珍藏版)》请在金锄头文库上搜索。

1、基于MapReduce模型的中文分词,张林梁 21109220 韩增曦 21109225,实验环境,操作系统:Ubuntu 10.10开发工具:jdk 6-30+Eclipse+hadoop 0.20.30+ssh,实验设计,一 、目前比较成熟的的中文分词方法主要有:1.词典的正向最大匹配法2.词典逆向最大匹配法. 3.基于确定文法的分词法 4.基于统计的分词方法 本程序利用了第一种与第三种分词法,即词典正向最大匹配法和基于确定文法的分词法,实验设计,二、建立三个文本字典:Numbers Foreigns Words,实验设计,测试文本:,实验设计,三、 分词方法 (1)词典的正向最大匹配法:

2、 1.将词典的每条读入内存,最长4个字,最短1个字 .2.从语料中读入一文本文字,保存为字串.3.如果字符串长度大于4个中文字符,则取字符串最左边的4个中文字符,作为候选词;否则取出整个字符串作为候选词.,实验设计,4. 在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为1个中文字符.5. 将候选词从字符串中取出、删除,回到第3步直到字符串为空.6.回到第二步直到语料对完为止 .,实验设计,(2)确定文法的分词方法基于确定文法的分词法可以进行数字、西文、时间的分词.1.增加一个数字词典2.增加一个英文词典3.增加一个中文词典,实验设计,四 、搭建hadoop伪分布、编MapReduce端口1.Map端:1)输入:IntWritable Text IntWritable Text2)对划分好的块,通过Map端口进入后,提取文本,读入的文本以每行以“n”为标记切分文本,并对文本分词,期间每行对加行号标注 .,实验设计,3)将分好的文本输出到Reduce 2.Reduce端:1) 接受从Map输入的文本 2) 按行号输出文本,程序运行信息:,实验结果,结果:程序代码见 word:,程序完成,Thank you for your attention!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号