网络学术文档细粒度关联与聚合的信息组织机制研究

上传人:I*** 文档编号:228142416 上传时间:2021-12-22 格式:DOCX 页数:22 大小:241.10KB
返回 下载 相关 举报
网络学术文档细粒度关联与聚合的信息组织机制研究_第1页
第1页 / 共22页
网络学术文档细粒度关联与聚合的信息组织机制研究_第2页
第2页 / 共22页
网络学术文档细粒度关联与聚合的信息组织机制研究_第3页
第3页 / 共22页
网络学术文档细粒度关联与聚合的信息组织机制研究_第4页
第4页 / 共22页
网络学术文档细粒度关联与聚合的信息组织机制研究_第5页
第5页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《网络学术文档细粒度关联与聚合的信息组织机制研究》由会员分享,可在线阅读,更多相关《网络学术文档细粒度关联与聚合的信息组织机制研究(22页珍藏版)》请在金锄头文库上搜索。

1、 网络学术文档细粒度关联与聚合的信息组织机制研究 马翠嫦 司徒俊峰 曹树金摘要:目的/意义随着人们对检索文档之间关联关系的理解越來越多样化和细粒度化,检索文档内信息单元间关联关系的构建显得越来越重要。本研究旨在以学术文档内信息单元间关联关系为基础,构建文档的细粒度聚合与关联机制。方法/过程本研究从跨体裁聚合单元知识体系所蕴涵的各类关联关系出发,从信息组在的角度阐述支持情景和语义关联的细粒度聚合理论框架、知识组织系统构建和聚合单元元数据标注等关键问题,并提出聚合机制。结果/结论研究认为构建蕴含聚合单元语义关系、学科领域语义关系、任务和文本关系的本体,采用可反应聚合单元层级与关联关系的聚合单元元数

2、据,是细粒度聚合机制发挥效用的关键。关键词:网络文档;学术资源;信息聚合;聚合机制;细粒度聚合;信息组织DOl: 10 .3969/j .issn .1008 -0821 .2019 .12 .005 G203 A 1008-0821( 2019) 12-0037-09无论是从Vannevar Bush提出的Memex到TimBerners-Lee提出的语义网,从互联网出现初期的超链接到最近的关联数据,在网络信息发展的各个时期,人们从没停止对网络信息资源之间关联关系的探索,使得人们对网络资源之间关联关系的理解越来越多样化和细粒度化。因此,网络环境下信息单元之间关联关系的构建就显得非常重要。在网

3、络信息组织中,人们常常按照资源之间或资源与用户之间的各类关联关系进行组织。最基本的是按照学科领域概念间的语义关系进行组织,如分类法、主题法、学科领域本体等知识组织系统提供的概念间的语义关联关系。与此相对,还可按照用户需求与信息之间的关联关系进行组织,如根据用户需求进行相似网络产品的组织与呈现。这两种类型的关联关系正好对应广义和狭义的语义关联关系一狭义的语义关系仅指概念间的语义关系,如王知津的定义1,而广义的语义关联关系包含多种类型语义关系,如Assefa S G的定义2的包含概念间的语义关系和基于用户需求的关联关系。由于单纯基于概念间关系的主题相关性检索匹配只能从语义层面确保检索结果的准确性,

4、而无法完全确保这些信息对于用户的有用性,因此广义的关联关系更有利于提高信息组织的效用。语义网环境下,基于概念间语义关联关系的知识发现、知识关联、知识组织系统构建等网络信息组织既有理论、方法与工具可为基于语义关系的知识组织提供良好的基础,关联数据理论和实践的盛行使得基于语义关联的网络资源组织粒度由资源载体细化到数据、信息本身,再加上学术文献内部结构单元的识别和自动化分技术的发展(如:3-5),使得语义信息组织朝着细粒度方向发展。然而,基于用户需求的资源之间的关联关系研究基本停留在资源或文档整体的层面,如基于用户需求的文档推荐或商品网页推荐等,因此难以建立用户需求与细粒度资源之间的关联,更不能实现

5、面向用户需求和概念语义关联的广义的语义关联与聚合。面向语义关联关系的细粒度聚合,是指以通用的或特定领域的知识体系为基础赋予资源语义,并根据语义关系对资源进行重新序化与组织,使原本分散的、异构的资源和资源的片段形成面向用户需求的、具有一定知识结构的序化知识。为了进一步实现基于概念与用户需求的学术文档细粒度关联与聚合,本文将面向细粒度聚合的网络学术文档内不同层级的信息单元称为聚合单元。作者在前期研究中探索了学术文档聚合单元划分的理论与方法,尝试建立用户需求与若干类体裁文档聚合单元之间的关联关系,但如何从信息组织和知识组织的角度构建基于概念语义关系和用户需求的语义关联与聚合机制?这一问题仍未得到回答

6、。为了解决这一问题,本文首先对聚合单元间关联关系以及细粒度聚合相关理论进行梳理和总结,提出面向情景关联与知识发现的细粒度聚合信息框架,进而探索细粒度聚合知识组织系统构建、聚合单元元数据语义标引等关键问题,最终提出聚合单元细粒度聚合的整体框架与机制。1 理论基础1.1 体裁理论与聚合单元划分功能语言学中的体裁结构理论可为网络文档聚合单元的划分提供面向用户认知的普遍性基础。网络学术文档按照体裁类型不同而有各自的社会交际目标(可理解为作者的写作目的),遵循相应的语篇结构和话语意图,这就使得资源除了具有基于主题的语义关联关系外,同时也具有体裁交际目标所承载的结构化语言功能特征。例如:研究论文会包括摘要

7、、引言、研究方法、研究结果、讨论/结论等一系列规范的体裁结构规则。因此,网络学术信息资源的知识组织中,除了可采用传统的基于学科领域术语本体外,还可以进一步利用文档体裁结构规则所蕴含的语义关系,从而实现语义关系更丰富的、更面向用户需求的细粒度聚合。体裁早期的利用源于知识组织领域,早至亚里士多德就认识到体裁对文献分类的功能6。在图书情报学领域,体裁被广泛用于自动分类7、知识组织8-10、网页设计6,11和信息搜寻12-13等方面。Zhang L借鉴功能语言学家Swales关于体裁分析的理论和CARS模型14,利用体裁形式和结构特征,对心理学领域的研究论文的语言功能单元进行划分,探索信息使用任务与不

8、同类型的语言功能之间的关系,从而辅助信息利用15。在此基础上,Zhang L更探索了信息使用任务情境下不同类型语言功能之间的关系,从而为知识组织提供参考10。Ma C-C和Cao S-J则借鉴体裁分析的理论对网络环境下的题录摘要、期刊论文、网络百科词条和学术博客文章进行体裁层级和类型的划分,建立了面向细粒度聚合的聚合单元分类体系16。因而,体裁理论可为网络学术文档聚合单元的划分提供理论与方法依据:一方面可为聚合单元语言功能的解释、语义的赋予和聚合应用乃至基于学科领域体裁知识的聚合单元知识模型构建奠定基础;另一方面为聚合单元与用户信息获取任务的关联构建、面向特定任务的聚合单元之间关联关系的构建提

9、供理论与方法基础。1.2 信息资源聚合信息资源聚合研究探索信息資源之间的各类语义关联关系,从而提高资源组织和利用效率。按照资源类型划分,信息资源聚合研究面向馆藏资源、微博、网络商业信息等多种类型。这些研究中,对基于聚合单元的细粒度聚合具有较高参考价值的研究包括:聚合单元元数据研究、多粒度语义标注机制研究、多维语义聚合、深度聚合研究等。曹树金等构建面向聚合搜索的细粒度聚合单元元数据,以深入描述聚合单元的特征及其关系,从而促进知识发现并提升知识服务效率。作者主张聚合单元元数据涵盖访问元数据、物理元数据和语义元数据。其中,访问元数据包括标识符、关键词、来源等核心元素以及标题、主要责任者、日期、语种等

10、资源与篇章方面的个别描述元素;物理元数据包括聚合层级.存储路径等核心元素以及阶段单元层级、图表类型等个别描述元素;语义元数据则包括话语意图和语义功能两个元素。该研究虽然构建了聚合单元元数据的框架,但并不涉及细粒度聚合信息组织框架下聚合单元元数据的标注和组织问题17。多粒度语义标注机制研究方面,朱嘉贤、白伟华与李吉桂提出信息元的概念,提出构建信息元本体和信息元知识体系,并按照树状组织结构组织网络资源及其内部文档的内容。其中,资源信息元的概念与本文关注的聚合单元元数据类似,是对相关内容单元的信息描述,但该研究只要考虑网络资源本身和网络资源内部文档两个粒度层级,并未对文档内部内容进行进一步划分18。

11、多维语义聚合相关研究主要包括面向馆藏资源的聚合和面向网络资源的聚合研究。面向馆藏资源聚合的研究中,相关研究可包括:邱均平团队研究了基于资源本体的馆藏资源语义聚合,如:资源本体构建、语义化与存储研究19、馆藏资源语义化模型与技术研究20、资源本体构建理论研究21等,为基于主题以外的多维语义关系知识系统的构建与应用提供重要参考。何超等提出了基于本体的图书馆数字资源语义聚合与可视化模型,为图书馆数字资源的深度语义聚合提供语义知识的支持22。与之相似,欧石燕等提出一个基于本体与关联数据的图书馆多类型异构文献资源语义整合框架,实现语义网环境下图书馆资源的语义整合23。在网络资源语义聚合方面,相关研究主要

12、针对资源特征探索聚合的工具和方法,相关研究可包括:微博文本的内容、时间、空间、人物等多维度主题聚合24。基于语义关联和情景感知的信息资源推荐研究等25。通过基于细粒度聚合相关研究我们可知,语义网络环境下,面向细粒度聚合的元数据和本体构建是实现多源异构资源整合、多粒度标注和语义聚合的基础和关键。其中,信息单元本体和树状组织管理结构的多粒度语义标注研究可为聚合单元本体的构建及其组织提供理论和方法参考,聚合单元元数据为网络资源细粒度聚合提供基本的描述框架,语义聚合相关研究则为各类语义关联的发现、构建和应用提供参考。2 信息组组织基本理论框架2.1 情景关联与知识发现网络资源细粒度聚合作为面向用户的应

13、用,在于按照用户需求对网络资源进行不同粒度的重组,从而更准确地满足用户信息获取的需求并支持知识发现。与广义语义关联关系对应,用户信息获取需求的满足可在两个层次上实现,即:主题相关性性和资源的有用性。由于资源获取的准确性是传统信息检索系统的核心,用户查询主题和资源描述主题的匹配在信息检索研究中已有成熟的研究结论,可为信息聚合研究提供参考。而本文提出的信息聚合则在主题相关性的基础上,进行聚合单元划分及及其用户任务情景的关联的探索,从而提高信息的有用性,这就使得基于聚合单元的信息组织与呈现具备了情景性的要求。由于本体可为概念的匹配和关联提供准确性和全面性的保障,因此基于聚合单元分类体系与其任务关联属

14、性的聚合单元本体,可为细粒度聚合提供主题以外更丰富的依据,使得聚合结果体现用户和资源的情景和语义关联。在主题相关性和资源有用性的基础上,学科领域本体支持概念匹配和相关性扩展,再加上聚合单元本体所赋予的聚合单元更丰富的语义和关联关系,从而为细粒度信息单元的语义聚合提供更多的依据,使聚合单元形成具有一定知识结构的新聚合体。由于这些聚合资源之间具有知识语义关联,可以通过多种聚合网络来呈现资源之间的语义关联,并与用户进行可视化的呈现和交互。因而可为新信息和新知识的发现提供可能,这就使得基于聚合单元的信息组织与呈现具备了支持知识发现的要求。2.2 网络学术文档细粒度聚合的信息组织框架在信息资源聚合相关研

15、究的基础上,本文着眼于网络资源细粒度聚合对于情景关联与知识发现的支持,提出网络资源细粒度聚合的信息组织框架,包括:网络学术文本的采集与预处理一主题与聚合单元识别一本体构建一资源描述一面向用户语义与情境需求的聚合与呈现5个主要步骤,如图1所示:1)采集与预处理。对多源异构网络资源进行基于主题和非主体特征的采集,在此基础上完成细粒度聚合前的规范性描述。2)主题与聚合单元识别。网络资源聚合单元是聚合的主要对象,对于采集的网络文档须按其体裁规则进行识别和划分,并对不同粒度的聚合单元进行主题识别,从而为资源的细粒度组织提供对象。3)细粒度聚合本体构建。细粒度语义聚合需以本体作为语义描述和聚合处理的主要知

16、识体系,如:聚合单元知识体系、学科领域知识体系、文档与任务知识体系等。4)语义标注。依据领域本体和聚合单元本体对聚合单元的语义进行标注。其中,通过聚合单元本体划分细粒度聚合单元,通过领域本体,识别聚合单元的语义。每个聚合单元通过多个与之相关的概念进行标注,形成了一个多维、复合的语义概念。此外,通过聚合单元元数据,可对聚合单元进行全面描述与索引。5)聚合与呈现。将用户需求语义空间与资源描述的语义空间进行语义匹配后,把满足用户需求的资源按照聚合单元之间的语义关系进行重组。聚合处理过程主要是语义匹配的过程,在此基础上可采用多种模式进行可视化呈现,并与用户进行交互。3 支持细粒度聚合的信息组织关键问题由于细粒度聚合要求组织对象从文本整体细化到文本局部,且须建立各层级文本之间以及各层级文本与用户需求之

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 调研报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号