现代汉语树库的构建及其应用课件

上传人:M****1 文档编号:568857115 上传时间:2024-07-27 格式:PPT 页数:64 大小:2.03MB
返回 下载 相关 举报
现代汉语树库的构建及其应用课件_第1页
第1页 / 共64页
现代汉语树库的构建及其应用课件_第2页
第2页 / 共64页
现代汉语树库的构建及其应用课件_第3页
第3页 / 共64页
现代汉语树库的构建及其应用课件_第4页
第4页 / 共64页
现代汉语树库的构建及其应用课件_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《现代汉语树库的构建及其应用课件》由会员分享,可在线阅读,更多相关《现代汉语树库的构建及其应用课件(64页珍藏版)》请在金锄头文库上搜索。

1、中文树库加工及相关语言学问题中文树库加工及相关语言学问题詹卫东詹卫东教育部文科基地重大课题“大规模中文树库建设及其应用研究”(项目编号:06JJD740001)http:/:8080/WebTreebank/提纲提纲1.1.树库(Treebank)概述2.2.树库的构建3.3.在“树”上看语法范畴软件:分词/词性标注/句法分析器/树结构编辑器语言学理论:词类 | 短语类 | 层次结构分析 从“串分布”到“树分布”成分省略 与 功能变异1 树库(树库(Treebank)概述)概述n n历史发展简介时间:1993 语种:英语、德语、中文、阿拉伯语 标注深度:树库 命题库 篇章库标注体系:生成语法

2、HPSG 依存语法http:/en.wikipedia.org/wiki/TreebankMarcus(1993)Xue, Nianwen (2005)36 种2 树库的构建树库的构建2.1 树库构建方法 2.1.1 流程 2.1.2 辅助工具2.2 树库加工中面临的语言学问题 2.2.1 短语层次分析问题 2.2.2 短语功能分类问题树库加工流程(树库加工流程(WorkflowWorkflow)1 1,2 2,3 3,5 5:程序自动完成,程序自动完成,然后人工校对然后人工校对4 4:提供专门的人提供专门的人工校对工具工校对工具北大树库词类标记北大树库词类标记细化98 个标记北大树库短语类标

3、记北大树库短语类标记结构类结构类仿照词类确定的短语功能类功能类19 个标记北大中文树库规模及语料分布情况北大中文树库规模及语料分布情况句数: 55,161词数: 882,326字数:1,281,16957.95%12.96%9.64%9.63%5.86%3.96%语文课本新闻语料机译评测语料科技语料白皮书语料句型语料北大北大中文中文树库树库短语短语类和类和词类词类统计统计短语TYPETOKENfj37243672np364261756dj256101198vp254211357tp12720446ap11754550zj11554637sp8726581pp7125522qp7133818mp

4、4230835dp3963943STARTSTART19195574255742yj192823ypc181693hl13428npr10831npz998yph2747vn11合计202006990678词类词类TYPETYPETOKENTOKENn n2042320423159710159710v v1123311233178341178341a a309830983474534745m m283528352932529325nrnr238123811039110391vnvn1602160273557355d d149414945860758607t t13451345122871228

5、7iviv98598513291329b b85885844724472nznz85885819441944nsns85085063026302z z75975919541954ngng65265224182418lvlv502502668668wfswfs1 14301343013wscwsc1 169796979ydeyde1 1582582yleyle1 137963796合计合计95955630456304899373899373Upenn中文树库中文树库5.0短语TYPETOKENIP162274896NP1587138094VP1076134443FRAG1631962QP1502

6、0238UCP136375PP7518345CP6914669PRN551184LCP417988DNP3712524ADJP2913617ADVP2937238DP226133DVP18708CLP1714239VRD171362VSB15450VCD14769S S11111877818778LST9211VNV9127VPT9294VCP570INTJ412合计255,219518,726词类TYPETOKENNN17445138323VV1023070511NR569231282CD275416542JJ217413350AD166036712VA15937851NT6509835M3

7、6514147P15817856OD1551758PN936720LC827887CC667488DT606083PU5977745CS34898SP23470FW1634VC135464IJ1012MSP101344VE83028AS64193DER6258DEC412635LB4247BA3758DEV3644ETC31316SB3457DEG212531X16合计3343,385508,3852.2.1 短语结构层次划分的问题短语结构层次划分的问题大 眼睛 姑娘大 钢铁 公司小王 和 小李短语结构层次划分的问题短语结构层次划分的问题是 个 老人 买买 本本 瞧瞧你 再 坐坐 会儿会儿甲甲

8、乙乙丙丙v q np按 甲 方式 分析:造成“个”后接复数结构按 丙 方式 分析:造成 vp 和 np 并列构造选择:按 乙 方式分析“q np” 的分布:1)v 后宾语位置2)“把、被”后宾语位置3)联合结构前项位置短语结构层次划分的问题短语结构层次划分的问题层次分析所得的单位应层次分析所得的单位应“分布最大化分布最大化” 2.2.2 短语结构功能分类的问题短语结构功能分类的问题 X 所 Y? X 所 Y? X 所 Y?他 所 写 的 文章 今天 所 讲 的 内容例1:“所”字结构 “所”字短语的功能类别与内部层次构造“X+ 所所 + Y”的更多例子的更多例子1.1.所所所所 使用使用使用使

9、用 的的 案例案例 还是还是 很早的很早的2.所 需需 建设费建设费 平均平均 每瓦每瓦 为为 二百五十日元二百五十日元3.3.所所所所 生生生生 子女子女 属于属于 母亲母亲 一一 方方4.4.全全 靠了靠了 他他 卖血卖血卖血卖血 所所 换得换得换得换得 的的 钱,才钱,才5.5.5.5.为为为为 使使使使 房间房间房间房间 凉爽凉爽凉爽凉爽 所所 使用使用使用使用 的的 空调空调 设备设备6.6.毛泽东毛泽东 在在在在 这次会议这次会议这次会议这次会议 上上上上 所所 作作作作 的的 报告报告7.7.即将即将 由由由由 这这这这 次次次次 停火停火停火停火 所所 带带带带 来来来来 的的

10、 新新 形势形势8.8.前一次大老前一次大老 亲口亲口亲口亲口 所 说说 的的 话话 “所 + Y” 前面可以没有成分“所 + Y” 后面可以没有“的”,直接修饰np“所 + Y” 前面可以是vp,pp,dp等成分例1-3例2-3例4-8“X+ 所所 + Y”的分析的分析“所所 VP”是弱陈述性是弱陈述性VPa. a. 要求要求老王所支持的那一方老王所支持的那一方退出竞选退出竞选b. b. 要求要求老王支持的那一方老王支持的那一方退出竞选退出竞选 “ “的的的的” ”字短语的功能类别与内部层次构造字短语的功能类别与内部层次构造字短语的功能类别与内部层次构造字短语的功能类别与内部层次构造 X 的

11、 Y? X 的 Y? X 的 Y? X 的 Y?二分二分/ /三分三分中心成分中心成分甲甲二分二分的的司富珍(司富珍(20042004)熊仲儒()熊仲儒(20052005)乙乙三分三分的的陆俭明(陆俭明(20032003)仅针对)仅针对“ “X X 的的 VPVP” ”丙丙二分二分Y Y李艳惠(李艳惠(20082008)丁丁三分三分Y Y我们的处理方式我们的处理方式甲例2:“的”字结构乙丙丁“的的”在树库中的频次和分布在树库中的频次和分布句数: 55,161 25,726(46.64%)词数: 882,326 43,563(4.94%)字数:1,281,169 (3.40%)的的地地2447(

12、4.44%)2644(0.30%) (0.21%)? X 的 的 X X 的 Y?2 例5801例13.32%37758例86.67%乙丙甲丁“的”(di)2 例“的的”在树库中的频次和分布(续)在树库中的频次和分布(续)1.左邻右舍(的人),都捡了东西。2.两边的机关枪(的射击声)稍一停歇,大门外面的赤卫队就冲进了公安局。丙1.“有的放矢”中的“的”丁 “X 的的”短语的功能与分布短语的功能与分布ap X 的dp X 的np X 的vp X 的252 例390 例4598 例274 例 标点或连标点或连词、语气词、语气词之前词之前189189(75.00%75.00%)9 9(2.31%2.

13、31%)37743774(82.08%82.08%)2742742862861 1其他其他6363(25.00%25.00%)381381(97.69%97.69%)824824(17.92%17.92%)0 00 00 0tp X 的1例dj X 的286 例慢腾腾的晕头晕脑的真够瞧的不住的又一次的俨然的红的成套的天蓝色的是的会着凉的眨呀眨的你一定喜欢的他肺病死的我报了名的深更半夜的(4.34%)(6.72%)(79.26%)(4.72%)(4.93%)(0.02%) “X 的的”短语的功能与分布短语的功能与分布ap X 的dp X 的np X 的vp X 的252 例390 例4598 例

14、274 例 tp X 的1例dj X 的286 例慢腾腾的晕头晕脑的真够瞧的不住的又一次的俨然的红的成套的天蓝色的是的会着凉的眨呀眨的你一定喜欢的他肺病死的我报了名的深更半夜的(4.34%)(6.72%)(79.26%)(4.72%)(4.93%)(0.02%)标点或连标点或连词、语气词、语气词之前词之前补语,谓语,补语,谓语,并列项,分并列项,分句句(75.00%75.00%)状语状语(2.31%2.31%)主语、宾语主语、宾语(82.08%82.08%)分句,分句,谓语谓语3838例例分句,分句,谓语谓语2 2例例分句分句其他其他状语状语(25.00%25.00%)状语状语(97.69%9

15、7.69%)主语(主语(98%98%)宾语(宾语(2%2%)0 00 00 0 “X 的的”短语短语 小结小结 X 的X “的”vpvpapapdjdjdpdpfj fjppppnpnpqpqpspsptptpmpmp2509250915611561985985959519192 25565562929242418183 3vpvpapapdjdjdpdpnpnp274274252252287287390390459845981203例非指称用法中,750 例(62.34%)为陈述表达功能,且“的”位于句尾 “的”更多的是跟在“非指称性成分”后面 “X 的”短语整体更多的是用作“指称性表达”

16、有些句尾“的”有明显语气词化倾向1 : 48 :1“的的”表表“确认确认”语气用法的一些实例语气用法的一些实例1.1.所以他们才把这项工作委托给改良沙漠土壤方面具有丰所以他们才把这项工作委托给改良沙漠土壤方面具有丰富经验的林业部门富经验的林业部门的的的的吧?吧?2.2.我还听说施工人员以及车辆经过的路线也都列入了设计我还听说施工人员以及车辆经过的路线也都列入了设计规划之中,不可以随意乱来规划之中,不可以随意乱来的的的的。3.3.历史上没有一个反对人民的势力不被人民毁灭历史上没有一个反对人民的势力不被人民毁灭的的的的。4.4.酣眠固不可少,小睡也别有风味酣眠固不可少,小睡也别有风味的的的的。5.

17、5.你你 什么时候遇见他什么时候遇见他 的的的的6.6.横竖横竖 我我 要去要去 的的的的,不用,不用 请请 他他 来。来。7.7.这些事情,是无论哪一个这些事情,是无论哪一个“ “友邦友邦” ”也都有也都有的的的的, 8.8.懒洋洋地问道:懒洋洋地问道:“ “哪村来哪村来的的的的?” ” 9.9.您别又穷疯了,胡说乱道您别又穷疯了,胡说乱道的的的的。“X 的的 Y”短语的功能与分布短语的功能与分布1.1.发达国家的平均水平发达国家的平均水平发达国家的平均水平发达国家的平均水平2.2.克服困难的信心克服困难的信心克服困难的信心克服困难的信心3.3.张三开车的时候张三开车的时候张三开车的时候张三

18、开车的时候4.4.多么美妙的前景多么美妙的前景多么美妙的前景多么美妙的前景5.5.我喝的牛奶我喝的牛奶我喝的牛奶我喝的牛奶12345a5b“ “X X 的的的的 Y Y” ”不同内部模式的频次不同内部模式的频次不同内部模式的频次不同内部模式的频次他 的 情绪他 的 紧张情绪紧张 的 情绪时间 的 推移器官 的 生长发育校长 的 尽力撮合自己 的 莽撞经济形势 的 逐步稳定他 的 不诚实说不出 的 兴奋愉快改革 的 深入彻底 的 失败越来越多 的 重视16358例例 94.29%667例例 3.84% 93例例 0.54% 145例例 0.84% 15例例 0.09% 71例例 0.41% 有组

19、织 的 游说可持续 的 增长部分树库语料统计结果“X 的的 Y”的分布环境的分布环境短语结构短语结构短语结构短语结构分布种数分布种数分布种数分布种数频次频次频次频次np(npnp(np ude1 ude1 npnp) )16516562526252np(vpnp(vp ude1 ude1 npnp) )13013034473447np(apnp(ap ude1 ude1 npnp) )12012030373037np(djnp(dj ude1 ude1 npnp) )979717931793np(spnp(sp ude1 ude1 npnp) )6161763763np(npnp(np ude

20、1 ude1 vpvp) )5555667667np(tpnp(tp ude1 ude1 npnp) )3838281281np(ppnp(pp ude1 ude1 npnp) )3535308308np(qpnp(qp ude1 ude1 npnp) )3333219219np(fjnp(fj ude1 ude1 npnp) )22227676phrasephraserootrootleftleftrightrightfreqfreqnp(npnp(np ude1 ude1 vpvp) )vpvpvpvp#283283np(npnp(np ude1 ude1 vpvp) )ppppp p#8

21、787np(npnp(np ude1 ude1 vpvp) )djdj#vpvp6868np(npnp(np ude1 ude1 vpvp) )djdj#wcowco vpvp3737np(npnp(np ude1 ude1 vpvp) )npnp#c c npnp3030np(npnp(np ude1 ude1 vpvp) )npnpnpnp c c#2323np(npnp(np ude1 ude1 vpvp) )spsp#f f2121np(npnp(np ude1 ude1 vpvp) )npnpnpnp#1212np(npnp(np ude1 ude1 vpvp) )ppppp pf

22、f1111“ “npnp 的的的的 vpvp” ” 高频分布示例高频分布示例高频分布示例高频分布示例phraserootleftrightfreqnp(np ude1 vp)vpvp#283np(np ude1 vp)ppp#87np(np ude1 vp)dj#vp68np(np ude1 vp)dj#wco vp37np(np ude1 vp)np#c np30np(np ude1 vp)npnp c#23np(np ude1 vp)sp#f21np(np ude1 vp)npnp#12np(np ude1 vp)pppf11宾语主语并列项“np 的的 vp” 与与 “np 的的 np”同

23、分布的比例同分布的比例序序号号npnp的外部分布环境的外部分布环境npnp的内部结构的内部结构rootrootleftleftrightrightnpnp的的npnpnpnp的的vpvp1 1vpvpvpvp#243224322832832 2ppppp p#37437487873 3djdj#vpvp1312131268684 4djdj#wcowco vpvp969637375 5npnp#c c npnp636330306 6npnpnpnp c c#989823237 7spsp#f f29129121218 8npnpnpnp#818112129 9ppppp pf f1212111

24、11010STARTSTART#9 99 94646npnpwqlwqlwqrwqr8 81 15828/6252658/66793.2% 98.7% “np 的的 vp” 中的中的vp的结构类型的结构类型结构类型结构类型一般一般vpvp“ “npnp的的vpvp” ”中的中的vpvp1 1!v!v75803758034394392 2! !vpvp npnp29892298920 03 3dpdp ! !vpvp233102331026264 4! !vpvp vpvp113991139921215 5pp !pp !vpvp948994891 16 6! !vpvp uleule60006

25、0000 07 7vpvp ! !vpvp4542454214148 8!v v!v v254825481 19 9! !vpvp djdj245224520 01010! !vpvp wcowco vpvp238523850 01111!v !v uzheuzhe233523350 084225结构种数: 2.97% 结构例数:203962667 3.30% “X 的的Y”短语短语 小结小结 X 的 YX 所有短语类型均可。np占41.57% “的”Y 除 pp外其他短语类型均可。np占绝大多数(89.66%)。 npnpspsptptpvpvpapap3660036600604604509

26、50941414 4短语整体用作“指称性表达”占绝对多数;有少数“的”用在vp后,np前,整体是“陈述性表达”有极少量“的”相当于“得”。“X 的的 Y”短语整体为短语整体为vp、ap的一些实例的一些实例1.1.我是我是19641964年年上的大学上的大学。2.2.女人看出他女人看出他笑的不像平常笑的不像平常。3.3.您大概是想我您大概是想我想的梦里到过这儿想的梦里到过这儿 4.4.你你混的不错混的不错5.5.他他去的匆匆去的匆匆,6.6.要想要想住的安稳一些住的安稳一些,7.7.他他说不出的新鲜而且高兴说不出的新鲜而且高兴, 8.8.他他老的不像样子老的不像样子了。了。9.9.我们先前我们先

27、前比你比你阔的多阔的多了。了。10.10.男社员当中,最数张老五男社员当中,最数张老五挑剔的欢挑剔的欢。“X 的的 (Y)” 短语短语 小结小结基本格式:基本格式: X X 的的 Y Y 省略格式:省略格式: X X 的的 X X 的的 Y YX X 的的内部(内部(X X、Y Y)的构成)的构成X X:指称(:指称(42%42%)陈述()陈述(58%58%)Y Y:指称(:指称(94%94%)陈述()陈述(6%6%)X X:指称(:指称(11%11%)陈述()陈述(89%89%)整体的分布性质整体的分布性质与与npnp同分布(同分布(98%98%)其他(其他(2%2%)与与npnp同分布(同

28、分布(80%80%)其他(其他(20%20%)整体的表述功能整体的表述功能指称(多)指称(多)陈述(少)陈述(少)指称(多)指称(多)陈述(少)陈述(少)“ “的的” ”的性质的性质1.1.把修饰成分和中心成分把修饰成分和中心成分“ “间隔开间隔开” ”2.2.有一定的标记有一定的标记“ “指称性结构指称性结构” ”的作的作用用1.1.附着在修饰成分上。附着在修饰成分上。2.2.当修饰成分不再被解释为当修饰成分不再被解释为“ “修饰修饰” ”成分时,成分时,“ “的的” ”发展为语气词。发展为语气词。3 在在“树树”上看语法范畴上看语法范畴n3.1 从“串分布”到“树分布”n3.2 成分省略

29、与 功能变异3.1 从从 “串分布串分布” 到到 “树分布树分布”n n分布分析是语言分析的主要手段。分布分析是语言分析的主要手段。n n以往的分布分析(面向人)主要是基于线性串的。以往的分布分析(面向人)主要是基于线性串的。或者说主要是基于最小二叉树的或者说主要是基于最小二叉树的n n基于树结构的分布分析(面向计算机)可以获得粒基于树结构的分布分析(面向计算机)可以获得粒度更细的语言知识。度更细的语言知识。关于语言单位的功能(分布)分类关于语言单位的功能(分布)分类(1 1)一个语言单位()一个语言单位(w w)的组合方向:)的组合方向:(2 2)一个语言单位()一个语言单位(w w)的组合

30、对象:)的组合对象:w在参与序列组合时朝哪个方向组合?a. 要求跟几个成分组合? b. 要求跟什么类型的语言成分组合? wwABw?w?甲乙?“词类词类”(词的功能分类)示例(词的功能分类)示例b: 区别词 d:副词 u:助词 v:动词 a :形容词 n:名词 b,d 是功能(分布)比较确定的词类; u 是组合方向相对确定,但组合对象不确定的词类; n,v,a等是组合方向和组合对象都不大确定的词类;“dp vp 的的 vp” 的结构歧义的结构歧义1.原本 抽烟 的 不怕烟味 2.也许 抽烟 的 不怕烟味3.一直 抽烟 的 不怕烟味 甲乙增加一个副词,歧义消失增加一个副词,歧义消失n n原本原本

31、 就就 抽烟抽烟 的的 不怕烟味不怕烟味甲乙副词的内部差异副词的内部差异(1 1)现代汉语语法信息词典现代汉语语法信息词典中副词有中副词有“ “主前后主前后” ”的描的描述:述: 一个副词能否在一个副词能否在“ “主语主语” ”前出现前出现(2 2)现代汉语语法信息词典现代汉语语法信息词典中没有中没有“ “副词副词 + V+ V” ”后能不后能不能再加能再加“ “的的” ”的特征描述的特征描述就 抽烟原本 抽烟就 抽烟 的原本 抽烟 的3.2 成分省略与功能变异成分省略与功能变异句法约束条件改变语义约束条件改变句法成分与句法位置中心成分与从属成分体词性成分占据谓词性位置谓词性成分占据体词性位置

32、中心成分缺省从属成分缺省论元数发生变化论旨角色的约束条件发生变化功能变异的后果功能变异3.2.13.2.2ABCDEF体词性成分占据谓词性位置体词性成分占据谓词性位置1.1.看看 你你 把把 闺女闺女 吓吓吓吓 得得得得 那那那那 个个个个 样子样子样子样子2.2.豆子豆子 撒撒撒撒 得得得得 满地满地满地满地A3.2.1谓词性成分占据体词性位置谓词性成分占据体词性位置3.3.一丝发抖的声音,在空气中愈颤愈细,一丝发抖的声音,在空气中愈颤愈细,细细细细 到到到到 没有没有没有没有,周围便都是,周围便都是死一般静。死一般静。 4.4.他在他父亲的公司里一直他在他父亲的公司里一直 呆呆呆呆 到到到

33、到 他他他他 父亲父亲父亲父亲 去世去世去世去世。5.5.他他 好好 就就 好好好好 在在在在 为人为人为人为人 老实老实老实老实。Bp+npp+npp+spp+spp+tpp+tpp+djp+djp+vpp+vpp+app+ap6772677225132513992992190190524524242493.3%93.3%6.7%6.7%把把+ +npnp把把+sp+sp把把+ +tptp把把+ +djdj把把+ +vpvp把把+ +apap128512857 70 02 217170 098.0%98.0%2.0%2.0%被被+ +npnp被被+sp+sp被被+ +tptp被被+ +djd

34、j被被+ +vpvp被被+ +apap2052052 20 00 09 91 195.8%95.8%4.2%4.2%在在+ +npnp在在+sp+sp在在+ +tptp在在+ +djdj在在+ +vpvp在在+ +apap956956164416443923920 04 40 099.9%99.9%0.1%0.1%谓词性成分占据体词性位置谓词性成分占据体词性位置6.6.6.6.连续连续连续连续 工作工作工作工作 三三三三 天天天天 的的的的 极度极度极度极度 紧张紧张紧张紧张 使他几乎到了崩溃的边缘使他几乎到了崩溃的边缘中心成分缺省中心成分缺省7.7.让让 河水河水 冲冲 着着 他他 向向向向

35、 前前前前8.8.他他 那那 不时不时不时不时 的的的的 啜泣啜泣啜泣啜泣 变成变成 持续持续 不断不断 的的 低声低声 哭泣哭泣(静止)向前?(运动)向前?不时 发出/发生C从属成分缺省从属成分缺省9.9.他他 是是 想想想想 家家家家 想想想想 的的的的,晚上,晚上 总总 睡睡 不不 着着 觉。觉。10.10.你你 为什么为什么 睡睡 不不 着着 被被被被 他们他们他们他们 吵吵吵吵 的的的的DV X V de : 的的 ? 得?得?想家 想 得被他们 吵 得的的V X V de : 的的 ? 得?得?“把”“被”结构后面的vp不能是简单动词形式“的”的困境论元数发生变化论元数发生变化11

36、.11.你你 找找找找 我我我我 什么什么什么什么 事事事事 找: 二价动词? 三价动词?他 找 我 打 球他 找 我 借 了 一 些 钱你 找 我 干/做 什么事? 他 找 你 三 件 事* 他 找 你 几/多少/哪 件 事* 他 找 你 那 件 事 他 找 你 就 三 件 事 他 找 你 就 这 件 事E论元数发生变化论元数发生变化12.12.12.12.有有有有 个个个个 孩子孩子孩子孩子 大大大大 眼睛眼睛眼睛眼睛 高鼻梁高鼻梁高鼻梁高鼻梁论旨角色的约束条件发生变化论旨角色的约束条件发生变化13.13.老张老张 带带 给给 我们我们 每每 人人 一一 本本 书书 带给1: _ np n

37、p带给2: _ np djD造成“带给”为4价动词“我们一人”不能成立维持“带给”的论元结构不变?如何给如何给 “每人一本书每人一本书” 定性定性?“每人一本书”是np,则维持了“带给”的论元结构,但这个np太特别!“每人一本书”是dj,则造成dj能进入“带给”的论元位置!“省略式省略式”与与“原式原式”的对比的对比n n每人每人 一一 本书本书 n n他他 八八 岁岁n 带给 他们 每人 一本书n 他 八 岁 那年n * 带给 他们 每人 分/发/买 一本书n * 他 是 八 岁 那年省略(转指)造成的短语,即便归入“已有”的短语类,其功能跟“省略前”的构造也不可能完全相同。此外,我们认为,

38、“省略式”理应比“原式”受到更多限制,因而分布功能较窄,除非“省略式”使用日久,不再被看作是“省略”,成为新的“常规格式”。n n每人每人 分分/ /发发/ /买买/. /. 一一 本书本书 n n他他 是是/ /有有/. /. 八八 岁岁3.2.2 功能变异对句法分析的影响功能变异对句法分析的影响功能变异对句法分析的影响功能变异对句法分析的影响1.1.npnp qpqp ! !npnp 一一一一 个个个个 老人老人老人老人 的的 自述自述2.2.npnp q ! q !npnp 是是 个个个个 老人老人老人老人3.3.npnp mp ! mp !npnp 一一一一 老人老人老人老人 成功获救

39、成功获救4.4.qpqp mp !q mp !q 一一一一 个个个个 获救,一获救,一 个个 遇难遇难m q nm q nm q nm q n先规则4,再规则3先规则2,再规则1n n组合模式增加组合模式增加n n组合条件改变组合条件改变 造成更多潜在歧义m q n 的各种省略形式的各种省略形式mqn举例举例1+一 个 老人2-+ 个 老人3+-+一 老人4+-一 个5+-一6-+- 个 7-+ 老人8-潜在歧义潜在歧义n n有有 十倍十倍十倍十倍 那么大那么大那么大那么大n n(其中)(其中)一个一个一个一个 不小心不小心不小心不小心n n一一一一 个个个个 不不不不 小心小心小心小心 的的

40、 人人ap qp !apdj qp !apnp qp !np组合模式增加,潜在歧义增多组合模式增加,潜在歧义增多结语结语n n树库加工过程,可以看作是对语言学理论的一个检视过树库加工过程,可以看作是对语言学理论的一个检视过程,语法理论中建立的语法范畴覆盖面(适用性)如何,程,语法理论中建立的语法范畴覆盖面(适用性)如何,在加工过程中可以全面体现出来。在加工过程中可以全面体现出来。n n建好的树库,可以直接检索一个语言结构的分布情况;建好的树库,可以直接检索一个语言结构的分布情况;可以统计各种句法结构的频次。其中低频的分布(组合)可以统计各种句法结构的频次。其中低频的分布(组合),可以为发现,可

41、以为发现“ “非常规性非常规性” ”的语言现象(比如省略式)的语言现象(比如省略式)提供线索。提供线索。n n通过加工中文树库,我们体会到:汉语词语没有语法形通过加工中文树库,我们体会到:汉语词语没有语法形态变化。词和短语所属的类别(范畴)主要是一种语义态变化。词和短语所属的类别(范畴)主要是一种语义(表达功能)类,同一个语义类的成分在分布上自然会(表达功能)类,同一个语义类的成分在分布上自然会形成一定的同分布聚合,即语法类。通过树结构观察分形成一定的同分布聚合,即语法类。通过树结构观察分布,有助于进一步发现同一类中成员的差异。布,有助于进一步发现同一类中成员的差异。指称与陈述界限模糊的例子指

42、称与陈述界限模糊的例子 n n他他 那那 不时不时不时不时 的的的的 啜泣啜泣啜泣啜泣 变成变成 持续持续持续持续 不断不断不断不断 的的 低声低声低声低声 哭泣哭泣哭泣哭泣dp 的 vpvp 的 vp附录:树库标注的语言学问题示例附录:树库标注的语言学问题示例1.1.我们曾家人都是我们曾家人都是读书第一读书第一读书第一读书第一。2.2.这些项目的建设时间,这些项目的建设时间,最长三十个月最长三十个月最长三十个月最长三十个月,短的只有十一个月。,短的只有十一个月。平均建设周期为十七点二个月。平均建设周期为十七点二个月。3.3.好家伙好家伙好家伙好家伙!4.4.我应该我应该今天开始还是明天今天开

43、始还是明天今天开始还是明天今天开始还是明天?5.5.二五一十二五一十二五一十二五一十,五五二五五五二五五五二五五五二五。6.6.下劣、凶残下劣、凶残 到到 这种地步这种地步7.7.经度的所以发生影响,是离海洋远近的关系。经度的所以发生影响,是离海洋远近的关系。8.8.达达 34 34 座座座座 之之之之 多多多多9.9.这当然是这当然是再保险不过再保险不过再保险不过再保险不过的了的了10.10.连夜三班连夜三班连夜三班连夜三班,急急忙忙,完成这一环节之后,还得等待旁的环,急急忙忙,完成这一环节之后,还得等待旁的环节才能装配。节才能装配。树库标注的语言学问题示例树库标注的语言学问题示例11.11

44、.这时,原子核通常还会以光的形式释放出能量这时,原子核通常还会以光的形式释放出能量(称为(称为(称为(称为 射射射射线)线)线)线)12.12.他他不肯也罢了不肯也罢了不肯也罢了不肯也罢了,连,连个回信个回信个回信个回信也不给。也不给。13.13.全年全年 国有国有国有国有 及及及及 国有国有国有国有 控股控股控股控股 企业企业企业企业 增加值增加值 一点一七二六万亿一点一七二六万亿 元元14.14.常常会出现常常会出现 皮肤潮红皮肤潮红皮肤潮红皮肤潮红、出疹、头痛、恶心出疹、头痛、恶心出疹、头痛、恶心出疹、头痛、恶心等副作用等副作用15.15.这天,风雨又急又大,小乌鸦这天,风雨又急又大,小

45、乌鸦一一一一早早就就就就飞出去找食物,为飞出去找食物,为了不让妈妈担心,它们了不让妈妈担心,它们一一一一找到食物,找到食物,就就就就飞回窝里去。飞回窝里去。16.16.早晨早晨七点差十分七点差十分七点差十分七点差十分到八点半左右到八点半左右17.17.这么一个破茶馆这么一个破茶馆这么一个破茶馆这么一个破茶馆竟然在市中心,是怎么回事?竟然在市中心,是怎么回事?参考文献参考文献n nChu-RenChu-Ren Huang, Huang, FengFeng-Yi Chen, -Yi Chen, Keh-JiannKeh-Jiann Chen, Zhao- Chen, Zhao-mingming G

46、aoGao & & KuangKuang-Yu Chen.(2000). -Yu Chen.(2000). SinicaSinica Treebank: Design Criteria, Treebank: Design Criteria, Annotation Guidelines, and On-line Interface, In Annotation Guidelines, and On-line Interface, In Proceedings of the Second Chinese Language Processing Workshop, Proceedings of th

47、e Second Chinese Language Processing Workshop, HongKongHongKong. pp.29-37. pp.29-37.n nNianwenNianwen XueXue. 2005. Annotating discourse connectives in the Chinese Treebank, in Proceedings of the ACL Workshop in . 2005. Annotating discourse connectives in the Chinese Treebank, in Proceedings of the

48、ACL Workshop in Frontiers in Annotation II: Pie in the Sky . Ann Arbor, Michigan.Frontiers in Annotation II: Pie in the Sky . Ann Arbor, Michigan.n nNianwenNianwen XueXue, , FeiFei XiaXia, Fu-Dong , Fu-Dong ChiouChiou & Marta Palmer (2005) The Penn Chinese Treebank: Phrase structure annotation of a

49、& Marta Palmer (2005) The Penn Chinese Treebank: Phrase structure annotation of a large corpus, In large corpus, In Natural Language Processing 11 Natural Language Processing 11 (2): pp.207-238. Cambridge University Press.(2): pp.207-238. Cambridge University Press.n nMitchell P. Marcus, Beatrice Mi

50、tchell P. Marcus, Beatrice SantoriniySantoriniy, Mary Ann , Mary Ann MarcinkiewiczMarcinkiewicz, 1993, Building a large annotated corpus of English: the Penn , 1993, Building a large annotated corpus of English: the Penn Treebank, Computational Linguistics, Vol.19, No.2.Treebank, Computational Lingu

51、istics, Vol.19, No.2.n n邓思颖(邓思颖(20062006)以)以“ “的的” ”为中心词的一些问题为中心词的一些问题 当代语言学当代语言学第第3 3期,期, 205 - 12205 - 12页。页。n n郭锐(郭锐(20002000)表述功能的转化和)表述功能的转化和“ “的的” ”字的作用字的作用当代语言学当代语言学20002000年第年第1 1期,期,37-5237-52页。页。n n李艳惠(李艳惠(20082008)短语结构与语类标记:)短语结构与语类标记:“ “的的” ”是中心詞?是中心詞?当代语言学当代语言学20082008年第年第2 2期,期,97-1089

52、7-108页。页。n n姬东鸿(姬东鸿(20092009)汉语树库综述,)汉语树库综述,当代语言学当代语言学20092009年第年第1 1期。期。n n陆丙甫(陆丙甫(20062006)不同学派的)不同学派的“ “核心核心” ”概念之比较概念之比较 当代语言学当代语言学第第4 4期,期,289 - 310289 - 310页。页。n n陆俭明(陆俭明(20032003) “ “对对NPNP的的+VP+VP” ”结构的重新认识结构的重新认识 中国语文中国语文第第5 5期,期,378 - 391378 - 391页。页。n n陆俭明(陆俭明(19831983)“ “的的” ”字结构和字结构和“ “

53、所所” ”字结构。载中国语文杂志社編字结构。载中国语文杂志社編语法研究和探索语法研究和探索(一)北京大学出版社。(一)北京大学出版社。57 57 68 68页。页。n n司富珍(司富珍(20042004)中心词理论和汉语的)中心词理论和汉语的DePDeP 当代语言学当代语言学第第1 1期,期,26 - 3426 - 34页。页。n n司富珍(司富珍(20062006)中心语理论和)中心语理论和“ “布龙菲尔德难题布龙菲尔德难题” ” 当代语言学当代语言学第第1 1期,期,60 - 7060 - 70页。页。n n熊仲儒(熊仲儒(20052005)以)以“ “的的” ”为核心的为核心的DPDP结

54、构结构当代语言学当代语言学第第2 2期,期,148 - 65148 - 65页。页。n n袁毓林(袁毓林(20032003)从焦点理论看句尾)从焦点理论看句尾“ “的的” ”的句法语义功能的句法语义功能中国语文中国语文20032003年第年第1 1期。期。n n詹卫东(詹卫东(20002000)面向中文信息处理的现代汉语短语结构规则研究面向中文信息处理的现代汉语短语结构规则研究,清华大学出版社。,清华大学出版社。n n詹卫东(詹卫东(20002000)语言成分的組合与功能传递,载陆俭明主编)语言成分的組合与功能传递,载陆俭明主编面临新世纪挑战的现代汉语语法研究面临新世纪挑战的现代汉语语法研究,

55、山东教育出版社。,山东教育出版社。n n周国光(周国光(20052005)对)对“ “中心词理论和汉语的中心词理论和汉语的DePDeP” ”一文的质疑一文的质疑 当代语言学当代语言学第第2 2期,期,139 - 47139 - 47页。页。n n周国光(周国光(20062006)括号悖论和)括号悖论和“ “的的X X” ”的语感的语感“以以 的的 为核心的为核心的DPDP结构结构” ”疑难求解疑难求解 当代语言学当代语言学第第1 1期,期,71-7571-75页。页。n n周强(周强(20042004)汉语句法树库标注体系,)汉语句法树库标注体系,中文信息学报中文信息学报20042004年第年第4 4期,期,1-81-8页。页。 n n朱德熙(朱德熙(19611961)说)说“ “的的” ”,中国语文中国语文19611961年年1212月号。月号。n n朱德熙(朱德熙(19781978)“ “的的” ”字结构和判断句,字结构和判断句,中国语文中国语文19781978年第年第1 1、2 2期。期。致谢致谢n n常宝宝老师提供很多技术支持。n n树库加工过程中多位中文系研究生和计算语言所研究生参与工作,贡献良多。欢迎交流

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号