汉语共时语料库持续开发与多维应用

上传人:E**** 文档编号:118499337 上传时间:2019-12-16 格式:PDF 页数:5 大小:182.13KB
返回 下载 相关 举报
汉语共时语料库持续开发与多维应用_第1页
第1页 / 共5页
汉语共时语料库持续开发与多维应用_第2页
第2页 / 共5页
汉语共时语料库持续开发与多维应用_第3页
第3页 / 共5页
汉语共时语料库持续开发与多维应用_第4页
第4页 / 共5页
汉语共时语料库持续开发与多维应用_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《汉语共时语料库持续开发与多维应用》由会员分享,可在线阅读,更多相关《汉语共时语料库持续开发与多维应用(5页珍藏版)》请在金锄头文库上搜索。

1、汉语共时语料库:持续开发与多维应用 香港城市大学语言资讯科学研究中心 香港城市大学语言资讯科学研究中心,主要从事语言学、自然语言处理和信息科学间的跨 学科研究,致力于建立科技、人文科学和社会科学之间的学术桥梁,是香港城市大学所属 六所校级研究中心之一。语言资讯科学研究中心经过十多年精确地共时处理,从来自世界 泛华语地区具影响力华文报刊及电子媒体的庞大文本资料中,累积了大量有用的统计数据、 资料和技术。建立了L I V A C ( L i n g u i s t i cV a r i a t i o ni nC h i n e s eS p e e c hC o m m u n i t i e

2、s ) 汉语共时语 料库。 以下主要从几个方面来介绍L I V A C 语料库。第一部分将主要介绍L I V A C 语料库的建立,其 语料的收集,设计特点规模等。第二部分介绍L I V A C 语料库的开发层次和深度,简单描 述已有的标注。第三和第四部分分别介绍基于L I V A C 的语言研究及应用开发。 1 语料库设计 1 1 来源;泛华语地区 L I V A C 共时语料库定时分别处理来自多地的定= 霪| = 同类语料。语料来l 源包括北京、上海、广 州、深圳及珠江三角洲地区、香港、澳门、台北及新加坡等多地有代表性的中文报章与传 媒、电子新闻报道。选取内容包括各媒体中的社论、世界各地要

3、闻、当地新闻、两岸报道、 综合新闻,后来更扩展至包括经济新闻、体育新闻、娱乐新闻以及广告等。从范围看上 述各地可以说涵盖了世界上使用中文的泛华语地区,从内容上看,可以说囊括了新闻媒体 中文的大多数层面。 1 2 时段:1 9 9 5 年至今 L I V A C 按时语料库自1 9 9 5 年开始,每星期定时处理各地的同步语料,是一个“动态”更新 的语料库。历时十多年的语料方便有兴趣人士追踪有代表性的语言发展全面动态。 1 3 特点:共时、动态、均衡 除来源广泛外,L I V A C 共时语料库最大的特点是“共时性”和“动态”,即持续不断地共时 收集各地同一日期的同步等量语料。语料库采用前所未有

4、的严谨“视窗”模式,并在内容 的选择上刻意重复,可供各种客观的比较研究,方便有关的信息科技发展与应用。 1 4 规模;最大汉语共时语料库 L I V A C 语料库到2 0 0 6 年6 月,经处理的语料总字数达2 亿2 千5 百万字以上,词型数目超 过1 2 3 万条,并仍在不断增长。其中包括新概念词及其延伸、词义有所发展或转移的旧词 和有地方特色的词语等。此外,还从中提炼开发了复合词语、新概念词语、专名、专用词 语、四字格词语等多个专用词库。 。 目前上网可供检索的为1 9 9 5 年7 月至1 9 9 7 年6 月间京沪港澳台星等六地中文媒体有代表 性的的语料,含1 , 6 0 0 多万

5、字、近1 9 万词条。现阶段提供了词语、词类及文旬的统计和搜 - 8 3 索等服务。尚有其他进一步的语言资料与功能,如字、词配搭、分布或语言结构的其他资 料。 2 语料库标注 2 I 词性标注 L I V A C 语料库的语料经机器切词及人工校对后,分别作了多种词性标注,主要包括名词( 一 般名词、人名、地名、专名等) ,动词( 不及物动词、单宾动词、双宾动词、兼语动词、趋 向动词、名动词等) 形容词( 性质形容词、状态形容词,非谓形容词等) 等共4 0 多种词 类。上述标注将为语言工程提供优良的素材。也可供多方面的研究发展。包括对泛华语地 区的社会、文化与语言的深入比较。以上工作是由香港城市

6、大学的校办企业麒麟星信息技 术有限公司和珠海分公司共同完成的。 2 2 语义论元标注 语义论元结构的标注是由句法标注到语义标注的过程中不可或缺的一步,同时对机器翻译, 信息提取,问答系统,数据挖掘等许多应用是重要的知识来源。我们在L I V A C 中选择了高 频的几千个动词,对语义论元结构进行了标注。在人工标注的基础上,我们深入分析了现 代汉语动词的论元结构,论元属性,语法特征,语义特征,配价方式。施事、受事等语义 成分跟主语、宾语等句法成分之间的投射关系并探讨了自动标注的算法。语义论元标注 的研究加深了我们对汉语结构的全面认识。也为后续研究和应用提供了比较充分的语义知 识方面的基础。 3

7、基于L I V A C 语料库的语言研究 3 1 汉语音节的分布 究竟汉语是怎样的单音节语言? 我们对香港词型与词次的音节分布情况进行了考察,从中 发现不论是就词型还是就词次来说,香港常用词前十个至五千个中全部或大部分都是单音 节或双音节词。有趣的是在前五千词型中,单音节词占所有词型不到2 0 :但它们却占了 所有词次的4 0 以上。 3 2 汉语字熵和词熵 信息论中的熵可用来研究西文字母、汉字和各国语言中字、词的分布。计算词熵可以考察 有关语言的词汇使用模式。如果词熵比较大,反映该语言的词汇选择比较多以及词汇的 分布比较呷j 构反之,如果词熵较小。则反映该语言的词汇选择比较少。以及词汇的分布

8、 不均。L I V A C 采用严格的共时视窗模式,收入了重要新闻事件在各地报章的分别报道,可 通过计算比较词熵考察不同华人杜匾及所有华人使用汉语词的分布情况。 我们利用L I V A C 共时语料库的特点,计算出不同地区汉语的司焙。结果显示北京的汉语词 熵是1 1 4 5 ,与前人研究结果基本一致。这也反映了汉语( 北京) 词熵的稳定性相对于j E 京词熵的稳定,港台两地的词熵都比北京大,而其中香港( 1 1 9 6 ) 又比台北( 1 1 6 9 ) 更大, 大致上反映出港台用词选择比北京多。而用词分布也较为平均。 - 8 4 3 3 语言信息化与新词 每年,各地中文媒体都有数以千计的新词

9、语出现。我们过去十几年米在收集处理世界泛华 语地区中文媒体语科的同时,也十分注重搜集这类新词语。根据各年各地语料按不同地 区,把新出现的、见报率最高的新词语整理排列出了每年的各地汉语最常用新词榜。 以2 0 0 5 年为例,港、台、京、沪每个地区的新词语都有人千至一万条,专有名称如计算在 内则更高达二万条。这些新词语有别丁一般的“流行词语”、“关键词语”、“网络词语”等, 它们是通过系统性的定时“视窗”方式搜索、统计得出的。在北京,“两免一补”的免费义 务教育措施,“双合格”的家庭教育宣传实践活动是火家津津乐道的话题。上海则热衷于建 立“信息苑”的公益性互联网文化服务平台。香港着迷丁“数独”的

10、逻辑游戏,推崇行政 长官曾荫权“强政励治”的旄政理念。而在台北,铺天蔫地的是“秃鹰案”、“高捷案”以 及“周侯恋”的进展情况。这些地方性的新词从另一个侧面反映了2 0 0 5 年各地所关注的政 治、经济、文娱、体育等事件。 从L I V A C 菇时语料库可以看至l 最高4 0 以上的词汇可以是专用名词,相比之下,我们对专 名的认识却很少。在信息千变7 J 化的电子世界里,新的事件与情况不断山现而衍生出层山 不穷的新词语,这个语言信息化过程的现象值得我们深入探讨。我n J 在L I V A C 的支持一r , 对新个体专名的衍生,个体专名的词性转变,微观词的衍生以及个体专名的中州对应等现 象做

11、了深入的分析与研究。 3 4 语言演变与地区性差异 语言和文化有着密切的关系,一个地区的语言演变反映了它的文化取向。通过观察语川的 发展及变化,也可以追踪各地社会文化的演变。我口J 在L I V A C 共时语料库的基础上,比较 和分析了港澳两地同归前后的语言演变。如同门前后,两地对领导人的称呼变化。同归前, 两地大多采用“中国国家主席”,“中国总理”,回归以后,两地都大幅度减少了“中国”的 使用,这表示两地回门后对国家的认同感增强。 另外,通过对L I V A C 语料库的统计与分析,我们抽取山了人量不同华人社区的同形异义词 和同义异形词,并建立了相应的词库。前者如,“中巴”在北京的报章中指

12、中国与巴基斯坦, 而在香港指“中华巴士公司”。后者如,“U S B ”在北京称“U 盘”或“优盘”。而在香港称 “U S B ”或“手指”,在台北称“随身碟”、“行动碟”或“大拇哥”: 北京所说的“计算机程 序”在香港和台北叫做“电脑程式”;专有名词如著名球星贝克汉姆,香港称“碧成”,台 北称“贝克汉”等等。 4 基于L I V A C 语料库的应用开发 除语言学的研究外,我们更在L I V A C 的支持F ,独立,或与多个国际知名公司和多个政府 单位合作开展了应用系统的开发研究。 4 1 为网页提供检索功能 L I V A C 语料库曾向多个机构提供人名、地名、专名等词语,以及中英人名对照

13、资料及有关 技术以供在网页上作检索功能,以及移动电话汉字输入等方面的J :业廊用及信息开发。 - - 8 5 , 4 2 中英文书检索系统 与香港特区政府司法机构合作发展中英对照文书检索系统主要内容包括:法律辞汇的实 际用法、校正双语文书、以电脑辅助文书翻译,主耍供法官及司法人员在撰写判决书及法 律档以及法庭翻译组作口语翻译时参考。此种烈语对等与其他非对等检索方法属中心长期 研究范围。 4 3 为国内外分词比赛提供测试标准 2 0 0 3 年7 月于日本札幌举行的第一届S 1 G H A N 国际汉语文本自动分词比赛,2 0 0 5 年在韩国 举行的第二届S I G H A N 国际汉语文本自

14、动分词比赛,以及2 0 0 6 年在澳大利哑举行的第三届 S I G H A N 国际汉语语言处理比赛( 包括自动分词和命名实体识别) ,均选用了L l v A c 语料 作为测试标准语料之一。2 0 0 4 年1 0 月北京中国科学院举办的8 6 3 计划中文信息处理与智能 人机接口技术评测汉语命名实体识别评测,也使用L I V A C 语料作测试标准语料之一。 4 4 词典编纂 北京商务印书馆2 0 0 3 年出版的新华新词语词典,采用了L I V A C 语料库的词条。L 1 V A C 提供的词条主要分别为港澳台流行词语及京沪穗流行词语两部份,这些词语是自1 9 7 8 年以 后在该六

15、地见报率较高的新流行词语,每条词语附有简短的释义及例句。近期内,另外一 奉( 2 1 世纪华语新词语词典也将由复日大学出版杜出版。与其他词典编纂单位和研究人 员的合作也正在洽谈之中。 4 5 名人榜 我们在L I V A C 基础上推出的“名人榜”自2 0 0 1 年1 爿开始,每两星期对北京、上海、香 港、台北四地的主要传媒统计一次,分别排列出各地见报率最高的前2 5 位新闻人物,并 二 这一星期的星期六更新网上数据。这个“名人双周榜”紧贴三地的新闻报道反映了两周 来各地区的重要新闻取向。从三地名人的上榜与排序变化,可观察到各地的政治、经济、 体育及娱乐等方面的动态,供关心华人时事,对华人语

16、言现象、社会、文化与动态发展有 意探讨者参考。在“双周榜”的基础上作全年统计分析,得出“名人全年榜”,每年年底为 国内外2 0 多个媒体转载或引用。 4 6 正负报道分析 文本不仅用来传达客观信息,还包含作者对所谈论实体的观点和情感投入,简单地说,可 以分为褒扬( 正) 和贬斥( 负) 两种。纯粹的“客观”报道很少存在,因为即使是在事实 报道中,也依然隐含了作者的情感因素。例如,2 0 0 4 年1 1 月4 日的中文报纸中有关于美国 丈选的标题:“半个美国这天心碎了。”由丁:布什以些微的优势击败克里,所以该报道称支 持克里的近半选民“心碎”了。该报道显示了鲜明的支持克里,反对布什的立场。 情感挖掘的重要性早已受到了充分的认识和重视。其对于信息检索。文本分类问答系统 等涉及情感分析的应用有显着的影响。而近年来,随着互联网技术的迅速普及和发展,网 上论坛,博客,在绩产品评价等广受欢迎。文本中观点和情感的自动提取和分类。越来越 得到研究者和业界的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号