OpenRefine中文使用教程

上传人:宝路 文档编号:2121325 上传时间:2017-07-20 格式:DOC 页数:42 大小:1.69MB
返回 下载 相关 举报
OpenRefine中文使用教程_第1页
第1页 / 共42页
OpenRefine中文使用教程_第2页
第2页 / 共42页
OpenRefine中文使用教程_第3页
第3页 / 共42页
OpenRefine中文使用教程_第4页
第4页 / 共42页
OpenRefine中文使用教程_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《OpenRefine中文使用教程》由会员分享,可在线阅读,更多相关《OpenRefine中文使用教程(42页珍藏版)》请在金锄头文库上搜索。

1、完整版请访问我的博客:http:/ :初识 OpenRefine.3介绍 OpenRefine.4要点 1:安装 OpenRefine.5WINDOWS.5MAC.5LINUX.6要点 2:创建一个新项目.6OpenRefine支持的文件类型.7要点 3:探索数据.9要点 4:操纵列.10列隐藏和展开.10移动列.12重命名或删除列.13要点 5:使用项目操作历史.13要点 6:导出项目.15要点 7:获取更多的运行内存.18Windows.18Mac.18Linux.18小结.19第二章:分析和修改数据.20点 1-数据排序.21完整版请访问我的博客:http:/ 2-数据透视.23文本透视

2、.23数字透视.27定制透视.29对标星和标旗行进行透视.32点 3-重复检测.33点 4-应用一个文本过滤.35点 5-使用简单单元格转换.36点 6-删除匹配行.39小结.42第 1 章 : 初 识 OPENREFINE完整版请访问我的博客:http:/ OpenRefine是用来干什么的?为什么我们需要用它?并且怎么用它。简单介绍后,我们会通过七个基本小点让你初尝OpenRefine的魅力。安装 OpenRefine创建一个项目探索你的数据操纵列使用项目历史输出项目充分利用内存虽然每个点都相对独立,我们还是建议新读者按照我们的顺序学习,最起码开始的几点需要如此,因为这几点中我们提供了软件

3、操作的重要信息。有经验的高级读者可以按照自己喜欢自由选择。介绍 OPENREFINE我们需要承认这样一个事实:你的数据是不完美的,所有的数据都是不完美的。无论你多么小心地建立数据,错误总会偷偷溜进你的数据中。如果是多人共同创建或者已经几经转手,那么错误更加无法避免。无论你的数据本来就是数字化的,还是通过传统刊物数字化转换而来的,无论它们存储在excel表中还是数据库中,数据中的错误总是无法避免。确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。数据画像 Olson 定义为:使用统计方法发现数据的结构、内容、质量。换句话说,这是一种对你的数据进行画像,预发现包含的错误信息的方法。数据清

4、洗 用半自动化的方式改正画像过程中发现的错误,比如:删除缺失和重复值、行过滤透视、值聚类及转换、单元格拆分等等。完整版请访问我的博客:http:/ IDTS也就成为了首选。OpenRefine就是这样一个 IDTS工具,其能够对数据进行可视化操作处理。它很像传统的 excel软件,但其工作方式更像数据库,因其并不是处理单独的单元格,而是处理列和字段。这意味着 OpenRefine对于增加新行内容表现不佳,但对于探索、清洗、整合数据却功能强大。第 1章的要点介绍将帮助您熟悉 OpenRefine的主要功能,从导入导出数据到数据探索,从历史操作使用到内存管理。要点 1:安装 OPENREFINE本点中,您将学习如何下载最新版本的 OpenRefine和如何在你喜欢的操作系统中运行软件。让我们开始吧:请从 http:/OpenRefine.org下载软件,OpenRefine原来叫做 Freebase Gridworks。后来几年使用名称为 Google refine。2012年 10月后,这个软件被社区接手,使其真正成为开源软件。OpenRefine2.6是使用新名称

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号