《高教社2025Python财务大数据分析教学课件python第5章》由会员分享,可在线阅读,更多相关《高教社2025Python财务大数据分析教学课件python第5章(47页珍藏版)》请在金锄头文库上搜索。
1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,2024-09-18,李瑞雪,liruixue0010,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2024-09-18,李瑞雪,liruixue0010,#,李瑞雪,liruixue0010,财务大数据统计分析,第,五,章,李瑞雪,liruixue0010,目录,CONTENTS,1,2,3,财务大数据描述性统计分析,数据分组与聚合,数据透视表与轴向转换,李瑞雪,liruixue0010,01,财务大数据描述性统计分析,李瑞雪,liruixue0010,财务大数据统计分析主
2、要包含描述性统计分析、分组与聚合、数据透视表三部分。本节主要介绍描述性统计分析,后面两节介绍分组与聚合和数据透视表。,读取本节所需要的数据,李瑞雪,liruixue0010,一、简单统计分析,虽然前面学习了数据的筛选合并及数据清洗,但是面对一堆数据还是会无从下手,可以先对数据进行简单的统计分析,这些简单的统计分析可以帮助我们初步了解财务数据的特征和趋势,为更深入的数据分析提供基础。,李瑞雪,liruixue0010,一、简单统计分析,均值:均值是一组数值的平均值,通过将所有数值相加,然后除以数值的个数来计算。均值可以帮助我们了解数据的中心趋势。在 Python 中,可以使用 Pandas 库的
3、 mean()函数来计算均值。,中位数:中位数是将一组数值按照大小排序后位于中间的值。如果数据有奇数个,中位数就是排序后的中间值;如果有偶数个,中位数是中间两个数值的平均值。中位数可以帮助我们了解数据的中间位置,对于处理有异常值的数据比均值更稳健。在 Python 中,可以使用 Pandas 库的 median()函数来计算中位数。,李瑞雪,liruixue0010,一、简单统计分析,众数:众数是一组数值中出现次数最多的值。众数可以帮助我们找到数据中的主要集中值。在 Python 中,可以使用 Pandas 库的 mode()函数来计算众数。,方差:方差是衡量数据分散程度的统计量。它衡量了每个
4、数据点与均值之间的差异。方差较大表示数据的分散程度较大,方差较小表示数据较为集中。在Python中,可以使用Pandas库的 var()函数来计算方差。,标准差:标准差是方差的平方根。它用于衡量数据的离散程度,是数据与均值之间差异的一种更常用的度量。标准差较大表示数据的波动较大,标准差较小表示数据的波动较小。在 Python 中,可以使用 Pandas 库的 std()函数来计算标准差。,李瑞雪,liruixue0010,李瑞雪,liruixue0010,李瑞雪,liruixue0010,describe()函数可以将所有数值列进行描述性统计,返回的 describe 里计算了常见的统计指标,
5、返回描述性统计的 DataFrame 数据,可以结合数据筛选提取出想要的指标数据。,李瑞雪,liruixue0010,二、数据排序,数据排序是一种对数据集中的元素进行重新排列的操作。排序的作用是将数据按照特定的顺序进行排列,以便更好地理解和分析数据。Pandas 提供对索引进行排序和对值进行排序两种方式。,李瑞雪,liruixue0010,二、数据排序,按照指定的规则对数据集的索引进行重新排序。通过对索引进行排序,可以使数据按照特定的顺序重新排列,使得数据集更加有序和结构化。排序后的索引可以是升序(从小到大)或降序(从大到小),具体取决于排序的要求。在 Python 中,可以使用 Pandas
6、 库的 sort_index()函数来对索引进行排序。,通过 axis 参数指定对行索引排序还是对列索引排序,默认为 0,表示对行索引排序,设置为 1,表示对列索引进行排序;ascending 参数指定升序还是降序,默认为 True 表示升序,设置为 False 表示降序。,(一)对索引进行排序,李瑞雪,liruixue0010,李瑞雪,liruixue0010,二、数据排序,对值进行排序指的是根据数据集中某个特定的数值字段(列)来对整个数据集进行重新排列,使得该数值字段按照升序(从小到大)或降序(从大到小)的顺序排列。值排序的含义在于重新组织数据集,以便更好地理解数据、分析数据和获取有用的信
7、息。排序后的数据集并不改变原始数据的值,只是改变了数据的顺序,从而使得数据更有序、更易于处理和分析。在 Python 中,可以使用 Pandas 库的 sort_values()函数来对索引进行排序。,相比 sort_index()方法,多了一个 by 参数,接收字符串或者列表,来指定要排序的行或者列名,其余基本一致。,(二)对值进行排序,李瑞雪,liruixue0010,李瑞雪,liruixue0010,李瑞雪,liruixue0010,三、累计统计,累计统计是指在统计学和数据分析中对数据进行累加或累积的过程。它涉及计算某个变量在一系列数据中逐步增加的总和或累积值。,李瑞雪,liruixue
8、0010,李瑞雪,liruixue0010,02,数据分组与聚合,李瑞雪,liruixue0010,数据分析处理时,当我们收到一份成千上万行数据的源文件,一般需要对数据进行分类汇总,以更清晰的展现我们关注的数据并进行后续计算。在 Pandas 中也有“分类汇总”的功能:分组、聚合。,李瑞雪,liruixue0010,李瑞雪,liruixue0010,一、数据分组与 GroupBy 函数,数据分组是将数据按照特定的属性或条件进行分类,将相似的数据项组织在一起的过程。数据分组的作用在于帮助我们更好地理解和分析数据,发现数据中的模式、规律和趋势,从而得出有意义的结论和进行决策。在 Python 中,
9、可以使用 Pandas 库的 groupby()函数来对数据进行分组。,李瑞雪,liruixue0010,李瑞雪,liruixue0010,李瑞雪,liruixue0010,二、数据聚合与 Agg 函数,数据聚合是一种数据处理技术,它将多个数据点或数据项合并为一个更小的数据集,通常是使用某种函数来计算或汇总这些数据的值。聚合可以应用于数据分组后的子集,也可以应用于整个数据集。在 Python 中,可以使用 Pandas 库的 agg()函数来对数据进行聚合,可以针对一列或多列选择相同或不同的聚合方式。,李瑞雪,liruixue0010,二、数据聚合与 Agg 函数,李瑞雪,liruixue00
10、10,李瑞雪,liruixue0010,小贴士:,groupby 分组后,直接调用 sum()函数,会对所有数值列进行求和计算。,groupby 分组后,使用聚合函数 agg(),可以指定某一列或多列,选择特定的聚合方式,实现相同或不同的聚合计算。,李瑞雪,liruixue0010,03,数据透视表与轴向转换,李瑞雪,liruixue0010,数据透视表和轴向转换是数据聚合和可视化的常用工具,它们可以帮助我们更好地理解数据的结构和关系。,李瑞雪,liruixue0010,一、数据透视与 pivot_table 函数,数据透视表是一种以多个维度为基础对数据进行汇总和分析的表格形式。通过数据透视表
11、,我们可以将原始数据按照不同的维度进行分组、聚合和展示,以便更好地理解数据的总体情况和关系。数据透视表通常包含行和列两个轴,其中行轴表示一个或多个维度,列轴表示另一个或多个维度,而单元格中的值则是根据这些维度进行计算和汇总的结果。在 Python中,可以使用 Pandas 库的 pivot_table()函数来对数据进行透视。,李瑞雪,liruixue0010,一、数据透视与 pivot_table 函数,pivot_table(dataframe,index=None,columns=None,values=None,aggfunc=mean,fill_value=None,margins=
12、False,dropna=True,margins_name=All,observed=False),(1)pivot_table()函数语法,李瑞雪,liruixue0010,一、数据透视与 pivot_table 函数,(2)pivot_table()函数参数,李瑞雪,liruixue0010,李瑞雪,liruixue0010,逆透视是指将透视表或数据框中的列转换为行,从而将数据从宽格式转换为长格式。这个操作通常用于数据重塑和重组,使得数据更易于分析和处理。在Python中,可以使用Pandas库的 melt()函数来对数据进行透视。,二、逆透视与 Melt 函数,李瑞雪,liruixue
13、0010,pandas.melt(frame,id_vars=None,value_vars=None,var_name=None,value_name=value,col_level=None),二、逆透视与 Melt 函数,(1)melt()函数语法,李瑞雪,liruixue0010,二、逆透视与 Melt 函数,(2)melt()函数参数,李瑞雪,liruixue0010,李瑞雪,liruixue0010,轴向转换是指在数据透视表中对行和列进行重新排列(类似于 Excel 中的行列转置),以便更好地呈现数据的某些方面或特定关系。通过轴向转换,我们可以改变数据透视表中行和列的顺序,从而改变
14、数据的呈现方式和聚合方式。这种转换可以帮助我们发现不同维度之间的关系、趋势和模式,以及更好地支持决策过程。,三、轴向转换与 Stack 函数,李瑞雪,liruixue0010,DataFrame.stack(level=-1,dropna=True),三、轴向转换与 Stack 函数,(1)stack()函数语法,李瑞雪,liruixue0010,三、轴向转换与 Stack 函数,(2)stack()函数参数,李瑞雪,liruixue0010,李瑞雪,liruixue0010,stack()和 unstack()互为反操作,unstack()是将 Dataframe 的 index 索引转换到
15、 columns 的索引。,李瑞雪,liruixue0010,李瑞雪,liruixue0010,在本章中,我们深入探讨了财务大数据统计分析的重要概念和方法,旨在 Python 财务大数据分析领域取得更准确和有意义的决策。首先,我们开始了解财务大数据描述性统计分析的概念。通过简单统计分析、数据排序和累计统计,可以有效地揭示数据的基本特征和趋势。这些方法将帮助我们深入了解财务数据背后的含义,从而做出更加明智的决策。,其次,我们探讨了数据分组与聚合的重要性。学会了如何使用 GroupBy 函数将数据按照特定条件进行分组,然后通过 Agg 函数进行数据聚合,得出有价值的信息。这样的分析有助于从大数据中
16、提取出关键信息,为财务决策提供支持。,最后,了解了数据透视表与轴向转换。通过使用 pivot_table 函数,能够将原始数据重新组织并汇总成更有意义的形式。逆透视与 Melt 函数以及轴向转换与 Stack 函数也提供了更多数据处理的方法,让我们可以在财务数据分析中更加灵活和高效。,本章小结,李瑞雪,liruixue0010,1.什么是财务大数据描述性统计分析?列举三种常用的描述性统计指标,并解释其意义。,2.在财务大数据统计分析中,解释数据分组与聚合的目的和重要性。,3.在 Python 中,使用什么函数可以对财务数据进行分组和聚合?,4.如何对财务数据进行异常值检测?在实际应用中,有哪些可能导致异常值的原因?,5.什么是数据透视表?它在财务大数据统计分析中有什么作用?,6.如何通过数据透视表实现数据的轴向转换?,7.你认为财务大数据统计分析在实际应用中有哪些挑战和局限性?提出至少两点建议来克服这些问题。,复习思考题,李瑞雪,liruixue0010,谢谢!,李瑞雪,liruixue0010,