【精品】特定领域文本的语段分析和单词的语义聚类研究

上传人:jiups****uk12 文档编号:47875078 上传时间:2018-07-05 格式:PDF 页数:57 大小:2.20MB
返回 下载 相关 举报
【精品】特定领域文本的语段分析和单词的语义聚类研究_第1页
第1页 / 共57页
【精品】特定领域文本的语段分析和单词的语义聚类研究_第2页
第2页 / 共57页
【精品】特定领域文本的语段分析和单词的语义聚类研究_第3页
第3页 / 共57页
【精品】特定领域文本的语段分析和单词的语义聚类研究_第4页
第4页 / 共57页
【精品】特定领域文本的语段分析和单词的语义聚类研究_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《【精品】特定领域文本的语段分析和单词的语义聚类研究》由会员分享,可在线阅读,更多相关《【精品】特定领域文本的语段分析和单词的语义聚类研究(57页珍藏版)》请在金锄头文库上搜索。

1、特定领域文本的语段分析和单词的语义分类研究摘 要 若随着语法分析和对话系统研究的逐步深入,自 然语两 处理系统实用化面临的又一要问题是特定领域语义语法的提取。s j J - - 的聚类是提取语法模板的前提。为f 达到我们希望的聚类效果,需要对特定顶域的义本进行句J - 的语段分析和单词的语义分类。语段分析避免对句子 完全而深入的分析,大大 减少了分析中的歧义,得到比较稳健的词性标注和语段结构。单词的语义分类根据使用的领域特点,从土下文的信息中归纳出单词之间的同义关系,将单词归类。通过调整语段的中心词和语义类在句了聚 类 的 权 市 , 给 “ 了 聚 类 以 约 束 , 将 得 到 改 ” 的

2、 聚 类 效 果 了木之 以语段分析和涪义分类这两项技术为主线,以统计理沦为依据,以日语指令集的下 ij I 空类为应I H 背景,对特定领域的文木分析进行了研究澎木文的组织结构如第一章通过实例介绍句子的语段分析和单词的语义分类在特定域语义模板提取中11勺 们l l l I说11) 了研究的动湘 L 和I ti 4! 背景。第 二 章简要讨沦有关的研究7 : 作。介绍在 P O S标注、不完全分析和单词的语义分类I i I1 1 1 的研究成果,并提出木文在这二个问题上采用的主要方法。第 : 章进一步i 1 论 P O S标注和句子语段分析的理论基础,提出用 Ma r k o v模型进 i I

3、 I O S . -l , t_ .) 分段的 H MM进行涪段分析,给出标注和分段的实验结果并考察对句 几 聚类的效果。第四章、 论单词语义分类的统计理论基础,提出用聚类的方法进行单词的分类。.止 , 价 选择作为分类依据的土 F 文信息和聚类中的初始化和迭代方法,并用分类的T 进步改善句r 聚类的效果。迪结第 : 总 结 全 文 , 提 出 今 后 的 作 章 点 。 刃关键字:句I . 聚类 P O S 标注 语段分析 单词语义分类盆 绍 书一 乏 矛 . 刁 石弓 沁 老一夕,?一 勺 会 、 、澡 讼 1 -1 1 “- :-_ . A - 赢T HE S T UDY ON CHUN

4、K P ARS I NG OF T E XTSAND S E MANT I C C L AS S I F I C AT I ON OF WORDSF OR A S P E C I F I C DOMAI NABS TRACTWi t h t h e r e s e a r c h o n s y n t a c t i c p a r s i n g a n d d i a l o g s y s t e m s i n p l a c e , t h e m a i n p r o b l e m i n t h e a p p l i c a t i o n o f N a t u r a

5、 l L a n g u a g e P r o c e s s i n g i s s e m a n t i c g r a m m a r e x t r a c t i o n f o r a s p e c i f i cd o ma i nO n e p r e m i s e f o r e x t r a c t i n g g r a m m a r t e m p l a t e s i s s e n t e n c e s g r o u p i n g . I n o r d e r t o a c h i e v e s a l i s fi t c t o r y

6、 g r o u p i n g r e s u l t s , w e m u s t i m p l e m e n t c h u n k p a r s i n g o f t e x t s a n d s e m a n t i c c l a s s i f i c a t i o n o f w o r d s f o r a s p e c i fi c d o m a i n .C h u n k p a r s i n g a v o i d s c o m p l e t e a n d i n - d e p t h a n a l y s i s o f s e n

7、 t e n c e s , s o i t g r e a t l y r e d u c e s a n a l y s i s a m b i g u i t y a n d p r o d u c e s r o b u s t P O S t a g g i n g a n d c h u n k s t r u c t u r e s . Wo r d s s e m a n t i c c l a s s i f i c a t i o n b a s e s i t s f o u n d a t i o n o n w o r d s s p e c i a l u s a

8、g e i n a d o m a i n , a n d i n d u c e s s y n o n y m o u s r e l a t i o n s h i p a m o n g w o r d s . We c a n g i v e r e s t r i c t i o n s t o s e n t e n c e s g r o u p i n g b y a d j u s t i n g t h e w e i g h t s o f c h u n k h e a d s a n d s e m a n t i c c l a s s e s t o g e t

9、 i m p r o v e d g r o u p i n g r e s u l t s .I n t h i s p a p e r w e p r e s e n t a s t u d y o n t e x t a n a l y s i s f o r a s p e c i f i c d o m a i n . O u r d i s c u s s i o n i s f o c u s e d o n c h u n k p a r s i n g a n d s e m a n t i c c l a s s i f i c a t i o n t e c h n i

10、q u e s . T h i s f o c u s i s d e v e l o p e d i n t h e c o n t e x t o f s p o k e n c o m m a n d s g r o u p i n g . T h e t h e s i s i s s t r u c t u r e d a s f o l l o w s :I n c h a p t e r 1 , a n e x a m p l e i s p r e s e n t e d t o e x p l a i n t h e e f f e c t s o f c h u n k p

11、 a r s i n g a n d s e m a n t i c c l a s s i f i c a t i o n o n s e n t e n c e s g r o u p i n g . We s h o w o u r r e s e a r c h m o t i v a t i o n a n d b a c k g r o u n d a s w e l l .I n c h a p t e r 2 , w e b r i e fl y d i s c u s s t h e r e l a t e d w o r k s o n P O S t a g g i n

12、g , p a r t i a l p a r s i n g a n d s e m a n t i c c l a s s i f i c a t i o n a n d p r o p o s e o u r s o l u t i o n s .I n c h a p t e r 3 , w e d i s c u s s t h e t h e o ry f o u n d a t i o n s f o r P O S t a g g i n g a n d p a r t i a l p a r s i n g . A M a r k o v m o d e l a n d a

13、s e g m e n t a l H MM a r e p r o p o s e d f o r t h e m r e s p e c t i v e l y . We p r e s e n t e x p e r i m e n t r e s u l t s a n d i l l u s t r a t e t h e i r e f f e c t s o n s e n t e n c e s g r o u p i n g .I n c h a p t e r 4 , b a s e d o n o u r s t u d y o n t h e s t a t i s t

14、 i c a l f o u n d a t i o n s f o r s e ma n t i c c l a s s i f i c a t i o n , w e a d o p t c l u s t e r i n g me t h o d s . E x p e r i m e n t s a r e i m p l e m e n t e d f o r s e l e c t i n g s u i t a b l e c o n t e x ti n l or ma t i o ni m p r o v e d b ya s we l l a s i n i t i a t

15、 i o n a n du s i n g c l a s s i fi c a t i o n r e s u l t si t e r a t i o n f o r m u l a . S e n t e n c e s g r o u p i n g a r e f u rt h e r1 1盆 应 熟 忘嫂 核, _ 冬川注 、舀“困妇 班 函毖韶奋 1浦淤、n c h a p t e r 5 , c o n c l u s i o n s a n d f u t u r e w o r k a r e g i v e nh c y w o r d s : s e n t e n c

16、 e s g r o u p i n g p a r t - o f - s p e e c h t a g g i n g c h u n k p a r s i n gs e ma n t i c c l a s s i f i c a t i o n o f wo r d sI I I眺 奋 痴 涵幽 公 敬滋 ) 翻;痛 茹第一章绪论自 然语两 处f T ( N a t u r a l L a n g u a g e P r o c e s s i n g , 简称N L P ) 是最 近2 0 年中 一项At发 展的技术门丛然有不少特殊的问题还没有解决,限定于 某些领域的实用系统已经取得今人鼓舞的成功T H I 难。但是由于这些系统的领域特殊性比较强,在改变应用方向时就会原因之 1 是,虽然自 然语台 的语法( S y n t a x ) 是相对稳定的,各个应用领域的语义 ( S e m a n t ic s ) 却多多 少少有差异,有各自 的描述对象、概念和对象之间的特殊关系,获 得这些

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号