光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训

上传人:gua****an 文档编号:50740363 上传时间:2018-08-10 格式:DOCX 页数:22 大小:51.39KB
返回 下载 相关 举报
光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训_第1页
第1页 / 共22页
光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训_第2页
第2页 / 共22页
光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训_第3页
第3页 / 共22页
光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训_第4页
第4页 / 共22页
光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训》由会员分享,可在线阅读,更多相关《光环大数据培训 高效使用 Python 可视化工具 Matplotlib _光环大数据培训(22页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/光环大数据培训光环大数据培训 高效使用高效使用 PythonPython 可视化工具可视化工具 MatplotlibMatplotlib _ _光环大数据培训光环大数据培训光环大数据大数据培训大数据培训机构,Matplotlib 是 Python 中最常用的可视化工具之一,可以非常方便地创建海量类型的 2D 图表和一些基本的 3D 图表。本文主要介绍了在学习 Matplotlib 时面临的一些挑战,为什么要使用 Matplotlib,并推荐了一个学习使用 Matplotlib 的步骤。对

2、于新手来说,进入 Python 可视化领域有时可能会令人感到沮丧。Python有很多不同的可视化工具,选择一个正确的工具有时是一种挑战。 例如,即使两年过去了,这篇Overview of Python Visualization Tools是引导人们到这个网站的顶级帖子之一。 在那篇文章中,我对 matplotlib 留下了一些阴影,并在分析过程中不再使用。 然而,在使用诸如 pandas,scikit-learn,seaborn 和其他数据科学技术栈的 python 工具后,觉得丢弃matplotlib 有点过早了。说实话,之前我不太了解 matplotlib,也不知道如何在工作流程中有效地

3、使用。现在我花时间学习了其中的一些工具,以及如何使用 matplotlib,已经开始将 matplotlib 看作是不可或缺的工具了。这篇文章将展示我是如何使用matplotlib 的,并为刚入门的用户或者没时间学习 matplotlib 的用户提供一些建议。我坚信 matplotlib 是 python 数据科学技术栈的重要组成部分,希望本文能帮助大家了解如何将 matplotlib 用于自己的可视化。为什么对 matplotlib 都是负面评价?在我看来,新用户学习 matplotlib 之所以会面临一定的挑战,主要有以下几个原因。首先,matplotlib 有两种接口。第一种是基于 MA

4、TLAB 并使用基于状态的接口。第二种是面向对象的接口。为什么是这两种接口不在本文讨论的范围之内,但是知道有两种方法在使用 matplotlib 进行绘图时非常重要。两种接口引起混淆的原因在于,在 stack overflow 社区和谷歌搜索可以获光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/得大量信息的情况下,新用户对那些看起来有些相似但不一样的问题,面对多个解决方案会感到困惑。从我自己的经历说起。回顾一下我的旧代码,一堆matplotlib 代码的混合这对我来说非常混乱(即使是我写的) 。matplotlib 的新用户应该学习使用

5、面向对象的接口。matplotlib 的另一个历史性挑战是,一些默认风格选项相当没有吸引力。 在 R 语言世界里,可以用 ggplot 生成一些相当酷的绘图,相比之下,matplotlib 的选项看起来有点丑。令人欣慰的是 matplotlib 2.0 具有更美观的样式,以及非常便捷对可视化的内容进行主题化的能力。使用 matplotlib 我认为第三个挑战是,当绘制某些东西时,应该单纯使用matplotlib 还是使用建立在其之上的类似 pandas 或者 seaborn 这样的工具,你会感到困惑。任何时候都可以有多种方式来做事,对于新手或不常用matplotlib 的用户来讲,遵循正确的路

6、径是具有挑战性的。将这种困惑与两种不同的 API 联系起来,是解决问题的秘诀。为什么坚持要用 matplotlib?尽管有这些问题,但是我庆幸有 matplotlib,因为它非常强大。这个库允许创建几乎任何你可以想象的可视化。此外,围绕着它还有一个丰富的 python工具生态系统,许多更先进的可视化工具用 matplotlib 作为基础库。如果在python 数据科学栈中进行任何工作,都将需要对如何使用 matplotlib 有一个基本的了解。这是本文的其余部分的重点介绍一种有效使用 matplotlib 的基本方法。基本前提如果你除了本文之外没有任何基础,建议用以下几个步骤学习如何使用mat

7、plotlib:学习基本的 matplotlib 术语,尤其是什么是图和坐标轴始终使用面向对象的接口,从一开始就养成使用它的习惯用基础的 pandas 绘图开始你的可视化学习光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/用 seaborn 进行更复杂的统计可视化用 matplotlib 来定制 pandas 或者 seaborn 可视化这幅来自 matplotlib faq 的图非常经典,方便了解一幅图的不同术语。大多数术语都非常直接,但要记住的要点是,Figure 是最终的图像,可能包含一个或多个坐标轴。坐标轴代表一个单独的划分。一

8、旦你了解这些内容,以及如何通过面向对象的 API 访问它们,下面的步骤才能开始进行。这些术语知识有另一个好处,当你在网上看某些东西时,就有了一个起点。如果你花时间了解了这一点,才会理解 matplotlib API 的其余部分。此外,许多 python 的高级软件包,如 seaborn 和 ggplot 都依赖于 matplotlib。因此,了解这些基础知识后再学那些功能更强大的框架会容易一些。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/最后,我不是说你应该避免选择例如 ggplot(aka ggpy) ,bokeh,plotly或

9、者 altair 等其他更好的工具。我只是认为你需要从对 matplotlib + pandas + seaborn 有一个基本了解开始。一旦理解了基本的可视化技术,就可以探索其他工具,并根据自己的需要做出明智的选择。入门本文的其余部分将作为一个入门教程,介绍如何在 pandas 中进行基本的可视化创建,并使用 matplotlib 自定义最常用的项目。一旦你了解了基本过程,进一步的定制化创建就相对比较简单。重点讲一下我遇到的最常见的绘图任务,如标记轴,调整限制,更新绘图标题,保存图片和调整图例。准备开始,我先引入库并读入一些数据:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌ht

10、tp:/ 光环大数据光环大数据 http:/import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.ticker import FuncFormatterdf = pd.read_excel(“https:/ numbernameskuquantityunit priceext pricedate740150Barton LLCB1-200003986.69光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/3380.912014-01-01 07:21:51714

11、466Trantow-BarrowsS2-77896-163.16-63.162014-01-01 10:00:47218895Kulas IncB1-699242390.70光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/2086.102014-01-01 13:24:58307599Kassulke, Ondricka and MetzS1-654814121.05863.052014-01-01 15:05:22412290Jerde-HilpertS2-34077683.21光环大数据光环大数据-大数据培训知名品牌大数据培训知名

12、品牌http:/ 光环大数据光环大数据 http:/499.262014-01-01 23:26:55这是 2014 年的销售交易数据。为了使这些数据简短一些,我将对数据进行聚合,以便我们可以看到前十名客户的总购买量和总销售额。为了清楚我还会在绘图中重新命名列。top_10 = (df.groupby(name)ext price, quantity.agg(ext price: sum, quantity: count).sort_values(by=ext price, ascending=False):10.reset_index()top_10.rename(columns=name:

13、 Name, ext price: Sales, quantity: Purchases, inplace=True)下面是数据的处理结果。NamePurchasesSales光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Kulas Inc94137351.96White-Trantow86135841.99Trantow-Barrows94123381.38Jerde-Hilpert89112591.43Fritsch, Russel and Anderson81光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/112214.71Barton LLC82109438.50Will LLC74104437.60Koepp Ltd82103660.54Frami, Hills and Schmidt72103569.59Keeling LLC光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据挖掘与识别

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号