工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例

上传人:f****u 文档编号:108590277 上传时间:2019-10-24 格式:PDF 页数:63 大小:3.40MB
返回 下载 相关 举报
工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例_第1页
第1页 / 共63页
工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例_第2页
第2页 / 共63页
工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例_第3页
第3页 / 共63页
工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例_第4页
第4页 / 共63页
工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例》由会员分享,可在线阅读,更多相关《工程新闻信息的规模化采集及质量控制——以“三峡工程新闻传播信息库”的信息采集为例(63页珍藏版)》请在金锄头文库上搜索。

1、华中科技大学 硕士学位论文 工程新闻信息的规模化采集及质量控制-以“三峡工程新闻传 播信息库”的信息采集为例 姓名:周黛 申请学位级别:硕士 专业:传播学 指导教师:陈少华 2010-05-31 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 I 摘摘 要要 在信息时代,数据库的优势越来越凸显,各类数据库的建立成为各大机构不 约而同的选择。数据库本身是一个空壳,必须对其进行填充才能实现其功能 ,因 此对信息的规模化采集不可避免。 工程新闻信息库的数据填充需要对所有的纸质、 电子、网络等类型的工程新闻信息进行规模化的采集。工程新闻信息规模化的采 集

2、工作在网络环境下显得尤为复杂,网络信息的海量性,无序化以及其他各类噪 音的干扰,加之采集人员本身的差异,都会增加采集的难度。本文旨在归纳出规 模化采集工作中涉及的理论、原则,针对不同类型的工程新闻,采用不同的采集 工具、采集方法、采集重点及采集技巧。采集工作包括了工程新闻信息的收集、 数字化、标准化录入、质量控制等。在采集环节中,标准化与质量控制是比较关 键也是比较困难的一环,本文认为用元素据实现信息的标准化处理是有效的,分 析了影响采集质量的因素与解决方法,并以三峡工程新闻信息报道的规模化采集 为例,系统地论证了该信息采集与质量控制方法的可行性与有效性,为以后其他 类型的资料采集提供借鉴意义

3、。 关键词:新闻报道 信息采集 质量控制 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 II Abstract In the information age, the advantages of the database has been more and more highlighted, the establishment of various types of databases become the choice of major organizations. This database Body is a shell and must

4、 be filled to achieve the combined, so large-scale collection of information is inevitable. Large-scaled information collection about project news report which printed、 electronic and network are needed to filled project news information database .The large-scale collection of project news reported

5、is particularly complex in the network environment, because the information is abundance, disorder and other kinds of noise interference, plus the differences of the collection officer, all these will increase the difficulty of collecting. This article aims to summarize the theory and principles inv

6、olved in the large-scale collection work, to different types of project news, using different collection tools, collection method, collecting key point and collection skills. Collection work includes project news information collection, digitization, standardization and quality control. In the colle

7、ction Session, standardization and quality control is more critical and difficult part. The opinion of this article is that using metadate to realize the standardization is effective. The article is also analyze the factors affecting the quality and collection solutions. And to the large-scale colle

8、ction of Three Gorges Project news reports as an example, argued the information collection and quality control method is feasible and effective in system, in order to provide for the reference significance to other types of information in future. Key word: News report Information Collection Quality

9、 control 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已 在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中科技大学可以将本学位论文的全部或部

10、分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保 密 在 年解密后适用本授权书。 不保密 。 (请在以上方框内打 “ ” ) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 1 1 绪论绪论 1.1 立题背景立题背景 随着社会信息化程度的加深,数字资源建设成为国家信息化的标志之一。除 了图书馆数据库与信息化工作全面展开外,各类特色数据库层出不穷,媒体和企 业也纷纷建立起自己的新闻报道全文数据库。2003 年 6 月,

11、浙江日报报业集团启 动所属媒体全部新闻产品的数字化工程。同年,广州大学图书馆根据实际需要筹 备建设广州新闻资料全文数据库管理系统 “媒体眼中的广州” 。 中国长江三峡 公司也于 2008 年开始筹备建设三峡工程新闻传播信息库。 由此可见, 数据库的建 设无论是对于教育机构、企业,还是媒体都具有重要的现实意义。 在上述数据库建设的过程中,除了数据库技术平台的建设外,更为重要的是 资料的有效采集。浙江日报全文数据库收录了浙江日报自 1949 年 5 月 9 日成 立以来所有的版面、文字、图片信息,时间跨度长达 56 年,共计 107000 个版面, 数据量约为 2.5 个 T。 “媒体眼中的广州”

12、依托广州大学图书馆丰富的馆藏资源和 大量的订阅投入,全面、系统地搜集了境内外中英文媒体关注广州政治、社会、 经济、城建及科教文卫等各方面发展情况有关报道。三峡工程从最初孙中山先生 的愿景,到现在的即将全面竣工,经过了整整一个世纪。关于三峡工程的新闻报 道从未停歇, 国内外大量媒体的目光一直紧随着这个举世瞩目的世界性工程。 据 了解,三峡工程相关报道累计几十万篇,时间跨度涉及几十年。面对规模如此庞 大的数据,如何准确、全面地采集和整理这些规模化的信息成为数据库建设中的 一个难题。 本文作者在参与“三峡工程新闻传播信息库的开发与应用研究”课题中,参 与承担了资料建设及相关研究工作,遇到的正是海量化

13、的、多种媒介、长时间跨 度的三峡工程新闻资料的有效采集和处理问题,诸如采集原则、采集方法和过程 规范化、采集质量控制等等,均是急需研究和解决的问题。本文的选题正是在基 于社会需要和研究实践而设立的。 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 2 1.2 国内外新闻媒体信息库现状国内外新闻媒体信息库现状 1.2.1 国外新闻媒体信息数据库发展现状国外新闻媒体信息数据库发展现状 国外新闻媒体数据库主要有两类,一类是新闻信息数据库,一类是学术信息 数据库。新闻信息数据库主要以公开发表的新闻报道信息为主要数据和资源,学 术信息数据库则主要以公开发表

14、的学术文章为主要数据和资源。比如,Factiva、 ProQuest 等世界著名媒体信息服务商建立的新闻媒体信息数据库, 就是新闻信息 数据库。这些数据库最初由通讯社、报社等新闻机构的资料室构建自己的新闻数 据库, 为记者、 编辑服务, 后逐渐发展成为综合性的媒体信息服务商。 而 Elsevier Science 建设的则是学术信息数据库。 国外的媒体信息数据库规模大,信息量多。以 fativa 为例,它 Factiva 整 合了全球 159 个国家和地区, 以 22 种语言发行的 10000 多种权威信息来源, 涵盖 了 30 多种行业领域。Factiva 提供世界顶级的新闻和商业信息,除了

15、道琼斯和路 透社新闻电讯、华尔街日报等独家组合新闻服务以外,还囊括了全球最有影响力 的电讯和报刊所报道的全部信息,如 BBC、CNN、NBC、FOX、纽约时报、南华早报、 泰晤士报、经济学家、财富、时代周刊等,以及世界各地的地方性著名新闻机构 发布的信息。此外还收录了 3200000 余家公司报告、世界各地公司的资料档案、 大量权威的行业研究资讯, 1300000 多份人物档案, 以及每周新增 3000 余幅图片。 此外,国外各类文献数据库的发展也形成规模,走向产业化和商业化。这些 数据库都具有一个共同的特点,即数据库规模大,数据量多,增长迅速。如学术 电子出版物供应商的 Elsevier S

16、cience 通过 ScienceDirtect 可在线检索、浏览 的信息资源包括 1500 多种全文学术期刊、 5900 万条文摘记录、2 百万篇学术期 刊论文。ISI 的 Web of Knowledge 信息平台上现有数据容量为:核心期刊 8600 多种、学术会议录论文记录 2 百多万条,专利信息 2 千多万条、化学反应 60 多万 个、化合物 1 百多万个;其数据的年增长量为:12000 多个学术会议的 22 万多条 会议录论文记录,收入的期刊数量则以 2.3%的速度递增。 1.2.2 国内新闻媒体信息数据库发展现状国内新闻媒体信息数据库发展现状 国内新闻媒体信息数据库起步相对较晚,数据库的主体多元化,也有新闻信 息数据库和学术信息数据库两种。目前的新闻信息数据库主要是通讯社、报社、 电台、电视台、网站等新闻机构创建的资料全文数据库。如新华通讯社拥有庞大 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 3 的新闻资料在线

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号