数据科学导论:Python语言实现.html

上传人:紫*** 文档编号:132910661 上传时间:2020-05-21 格式:PDF 页数:71 大小:14.08MB
返回 下载 相关 举报
数据科学导论:Python语言实现.html_第1页
第1页 / 共71页
数据科学导论:Python语言实现.html_第2页
第2页 / 共71页
数据科学导论:Python语言实现.html_第3页
第3页 / 共71页
数据科学导论:Python语言实现.html_第4页
第4页 / 共71页
数据科学导论:Python语言实现.html_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《数据科学导论:Python语言实现.html》由会员分享,可在线阅读,更多相关《数据科学导论:Python语言实现.html(71页珍藏版)》请在金锄头文库上搜索。

1、译者序 我们正处于一个快速发展的信息化时代 人们每天都在生产着各种类型的数据 与此同时 数据也在极大地影响着我们的生 活 于是 数据成为与能源同等重要的资源 掌握了数据获取 处理 建模 分析等过程的理论和方法 无疑就是掌握了打开这 种新型资源的钥匙 数据科学是融合多种学科的新的知识领域 一般要求学习者或从业者具备统计学等数学知识 计算机相关学科专业知识和特 定业务领域的知识 目前 数据科学领域的研究和应用备受瞩目 吸引了众多研究者 实践者和从业者的参与 他们都在积极探 索数据科学的基本理论 研究方法和技术应用 工欲善其事 必先利其器 那么 什么才是数据科学家最值得信赖的专业工具呢 Python

2、无疑是众多数据分析语言中最适 合的一个 Python是一种通用的 解释性和面向对象的语言 具有强大的数据分析和机器学习软件包 为解决各种数据科学问 题提供了快速 可靠 成熟的开发环境 它易学易用 便于快速开发 有很好的交互式体验 已经征服了科学界 堪称解决数据 科学问题的神器 本书介绍了进行数据科学分析和开发的所有关键要点 包括Python软件及相关工具包的安装和使用 不仅包含数据加载 运算和改写等基本数据准备过程 还有特征选择 维数约简等高级数据操作方法 建立了由训练 验证 测试等过程组成的数据 科学流程 结合示例深入浅出地讲解了多种机器学习算法 介绍了基于图模型的社会网络创建 分析和处理方

3、法 最后是数据分 析结果的可视化及相关工具使用方法的介绍 本书作者是两位意大利数据科学专家 他们长期从事与数据科学相关的教学和科研工作 在Python社区 社交网络上也很 活跃 发表了多篇学术论文和著作 对数据科学相关人员影响很大 本书是作者多年实践经验的总结 具有以下特点 1 循序 渐进 深入浅出 让初学者不畏惧 让从业者得要领 2 理论与实践相结合 几乎所有算法和理论都辅以简洁的实例和说明 通过简单的几行代码即可验证 3 深入理解数据科学概念 轻松进行理论扩展 快速建立自己的工程 使读者做到学以致用 促进多种形式的科学研究和应用开发 无论是作为数据科学和机器学习理论研究者的参考书 还是作为

4、使用Python进行数据科学应用开发人员的工具书 抑或作 为有志成为数据科学家的初学者的指导书 本书都能提供非常有价值的参考 本书还可以作为高等院校相关学科本科生或研究生 的学习教材 特别适合从事数据科学 信息处理和机器学习等方向的研究生进行学习和参考 本书第4章由河南工业大学信息科学与工程学院靳小波博士翻译 其余章节由河南工业大学信息科学与工程学院于俊伟博士 翻译 由于译者水平有限 加之时间仓促 错误和疏漏在所难免 恳请读者批评指正 本书的翻译工作受到国家自然科学基金项目 61300123 的资助 还要感谢机械工业出版社华章公司的编辑为本书出版付 出的辛勤劳动 最后 要特别感谢爱人刘楠及女儿

5、Cynthia对我工作的理解和支持 于俊伟 2016年3月 前言 千里之行 始于足下 老子 公元前604 531年 1 数据科学属于相对较新的知识领域 它需要成功融合线性代数 统计建模 可视化 计算语言学 图形分析 机器学习 商 业智能 数据存储和检索等众多学科 Python编程语言在过去十年已经征服了科学界 它现在是数据科学实践者不可或缺的工具 也是每一个有抱负的数据科学 家的必备工具 Python为数据分析 机器学习和算法问题求解提供了快速 可靠 跨平台 成熟的开发环境 无论之前数据科 学应用中阻止你掌握Python的原因是什么 这些都将通过我们简单的分步化解和示例导向的方法来解决 我们将

6、帮助你在演示 数据集和实际数据集上使用最直接有效的Python工具 借助你现有的Python语法和结构知识 不要担心 如果你需要获取更多的Python知识 我们有一些Python教程 本书 将从介绍建立基本的数据科学工具箱开始 接着 它将引导你进入完整的数据改写和预处理阶段 我们还需要花一定量的时间来 解释数据类型的转换 修复 探索和处理等核心活动 然后 我们将演示高级数据科学操作 建立变量和假设选择的实验流程 优化超参数 有效地使用交叉验证和测试 最后 我们将完成数据科学精要的概述 介绍主要的机器学习算法 图的分析技术和 所有用于呈现结果的可视化方法 在数据科学项目的具体演示过程中 永远都伴

7、有清晰的代码和简化的例子 以帮助你理解项目背后的机制和实际数据集 本 书也会给你一些经验提示 帮助你立即上手当前的项目 准备好了吗 相信你已经准备踏上这个漫长而又值得期待的旅程了 本书内容 第1章介绍所有必需的基础工具 用于交互计算的shell命令 库和数据集 使用Python可以立即开始数据科学分析 第2章阐明如何加载要处理的数据 当数据太大计算机不能处理时要采用替代技术 本章介绍了所有主要的数据操作和转换 技术 第3章提供了高级数据探索和操作技术 使用复杂的数据操作进行特征创建和精简 数据异常检测 验证技术应用等 第4章带你学习Scikit learn库中最重要的学习算法 演示了实际应用以

8、及为了获得每种机器学习技术的最佳结果 指出了应 该重点检查的关键数值和要调试的参数 第5章详细介绍了一些实用又有效的数据处理技术 用于处理表示社会实体之间的关系或相互作用的数据 第6章利用图形化表示完善数据科学概述 如果你想形象地表示复杂的数据结构 机器学习过程和结果 这些可视化技术是 不可或缺的 阅读准备 本书提到的Python及其他数据科学工具 从IPython到Scikit learn都能在网上免费下载 要运行本书附带的源代码 需要 一台带有Windows Linux或Mac OS操作系统的计算机 本书将分步介绍Python解释器以及运行示例所需要的其他工具和数据 的安装过程 读者对象

9、本书基于你已经具备的一些核心技能 能使你变成高效的数据科学从业者 因此 我们假定你具有编程和统计学方面的基础 知识 本书提供的示例代码不需要你精通Python语言 但是假设你至少了解一些基础知识 如Python脚本编写 列表和字典数据 结构 类对象的工作原理等 在阅读本书之前 花几个小时学习一下第1章推荐的网络课程 就可以快速获得这些知识 当然也 可以学习其他相关教程 本书并不需要高级数据科学的概念 我们提供的信息足够帮助你理解本书示例用到的核心概念 总的来说 本书适合以下人员 有较少的Python编程经验和数据分析知识 但还没有数据科学算法等专业知识 有志于成为数据科学家的新手 能熟练运用R

10、和Matlab等工具进行统计建模 愿意利用Python进行数据科学处理的数据分析师 有意学习数据操作和机器学习 不断拓展知识面的开发者和程序员 代码下载 读者可登录华章网站下载本书示例代码 1 目前国内比较认可的老子生卒年分别是公元前571年和公元前471年 译者有幸生于老子故里 对老子的传说和史料有所了 解 但众多考证都只能给出一个大概的年限 这里译者对作者严谨的引述表示敬意 或许以后利用数据科学技术能从众多史料中 挖掘出更确切的老子生平 译者注 第1章 新手上路 无论你是热切的数据科学学习者 还是基础扎实的数据科学从业者 都能从本书关于Python数据科学精要的介绍中受益 如果你已经具备一

11、些前期经验 如基础编程 用Python语言编写通用的计算机程序 熟悉MATLAB或R等数据分析语言 阅读 本书收获会更大 本书直接探究Python数据科学 使用Python语言及其强大的数据分析和机器学习软件包 为你提供解决各种数据科学问题 的快捷途径 本书提供的示例代码不要求你精通Python语言 不过 我们假定你至少应该了解一点基础的Python脚本 数据结 构 比如列表和字典 和类对象的工作原理 如果你对该主题不够自信 或者掌握的Python语言知识极其有限 建议阅读本书 之前先学习一下在线教程 如趣味编程网站Code Academy上的课程 者Google上的Python课程 获得阅读

12、本书的全部基础知识 在任何情况下都不要被本书开头提到的要求所吓倒 掌握Python数据科学应用不像你想象的那样困难 这只是我们假设读 者应该具备的一些基础知识 因为我们的目的是直接进入数据科学应用的重点 而无需对所使用语言的概况解释太多 那么 准备好了吗 让我们开始吧 本章只是一个简短的介绍 我们将从一些基础知识开始 逐步展开并介绍以下主题 如何创建Python数据科学工具箱 IPython的用法 本书要使用的数据集的概述 1 1 数据科学与Python简介 数据科学是相对较新的知识领域 尽管它的核心内容已经被计算机科学界研究了很多年 它的研究内容包括线性代数 统计 建模 可视化 计算语言学

13、图形分析 机器学习 商务智能 数据存储与检索 作为一个新的领域 读者必须考虑到目前数据科学的界定还不是很清晰 并且在不断地变化 由于该领域由多种学科构成 数据科学家各自的专业领域和能力不同 因此对这一领域的描述也不尽相同 在这种情况下 作为职业数据科学家 什么才会是你高效地学习和使用的行业工具呢 我们相信Python会是最好的工具 本书将向你提供快速使用Python的所有重要信息 另外 其他的工具如R和MATLAB是数据科学家解决统计分析和矩阵操作等具体问题的专用工具 然而 只有Python完整 包含了数据科学家所需要的技能集合 这种多功能语言适合开发与演示 不管你是什么背景和专业 都很容易学

14、习和掌握 Python于1991年创建 是一种通用的 解释性和面向对象的语言 已经逐渐征服了科学界 成长为一个成熟的数据处理和 分析的专业软件 它能够使你进行无数次的快速体验 轻松地进行理论扩展 并促进多种形式的科学应用 目前 Python已成为数据科学不可或缺的工具 它的主要特性如下 Python可方便地集成不同的工具 为多种语言 Java C Fortran甚至原语 数据策略和学习算法提供真正的统一平台 这些学习算法结合在一起 能帮助数据科学家制订新的 功能强大的解决方案 Python为数据分析和机器学习提供了一个大型 成熟的软件系统 确保提供数据分析课程需要的一切工具 甚至会更多 Pyt

15、hon是通用的 不管你是什么编程背景和风格 面向对象或者过程式的 都会喜欢使用Python编程 Python是跨平台的 Python解决方案完美兼容Windows Linux和Mac OS操作系统 不用担心它的可移植性 虽然Python是解释性语言 但与其他主流数据分析语言如R和MATLAB相比具有毋庸置疑的速度优势 尽管还不能与C Java和新出现的Julia语言的速度相媲美 得益于本书将要介绍的一些简单技巧 它还能变得更快 由于Python具有极小的内存占用和优秀的内存管理能力 它可以处理内存中的大数据 当进行数据加载 转换 切块 切 片 保存或丢弃时 它会使用循环或再循环垃圾回收器自动清

16、理内存中的数据 Python非常简单 易学易用 掌握了基础知识之后就可以立即开始编程 没有比这更好的学习方式了 1 2 Python的安装 首先 我们继续介绍Python所需要的环境设置 以便创建一个完整的数据科学工作环境 确保能对本书后面提供的示例代 码和实验进行测试 Python是一种开源的 面向对象的 跨平台的编程语言 与其直接竞争对手 比如C 和Java 相比非常简明 能在非常 短的时间内创建工作软件原型 它仅仅是因为这个特点就成为数据科学家工具箱中最常用语言的吗 当然不是 它还是一种通用 语言 能为一系列问题和需求提供各种各样的软件包 的确非常灵活 1 3 科学计算发行版 正如前面已经介绍过的 创建工作环境对于数据科学家来说是相当费时的操作 首先 你需要安装Python 然后逐个安装 需要的库 有时候 安装过程可能不会像你想象的那么顺利 如果你想节省时间和精力 同时确保有一个完整的Python工作环境 那么你只需要下载 安装并运行Python科学计算发行 版就可以了 除了Python 科学计算发行版还包括各种预安装的工具包 有时候甚至会提供附加工具和IDE 集成开发环境 其中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号