实用统计分析方法与应用

资源描述

《实用统计分析方法与应用》由会员分享，可在线阅读，更多相关《实用统计分析方法与应用（42页珍藏版）》请在金锄头文库上搜索。

1、实用统计分析方法与应用p 现代统计学的研究对象：统计方法和统计逻辑p 现代统计学的分类：从实际应用中的方法来区分可分为现代统计学概述1 以总体全面资料或非随机性局部资料为基础的统计理论与方法体系统计总体论）、统计设计、统计调查、统计整理、统计指数、动态分析理论、依据随机样本推断总体特征的理论与方法体系概率论、经典统计理论、贝叶斯理论、统计判决理论等描述统计数理统计R 编程可视SAS 编程Eviews 编程可视Matlab 编程可视SPSS 可视Stata 可视Excel 可视。统计软件2p常用统计软件一览(3种数据形态)SPSS的特点：1：可视视化操作，界面友好美

2、观观。2：数据接口多。3：操作简单简单，用户户体验验好。4：较较之Excel数据处处理能力更强。p 数理统计的基本框架：3微积分概率论数理统计基础。。计量经济学时间序列p 数理统计的基本框架：微积分：数学基础，为概率论的运算以及数理统计的统计量提供基础。概率论：数理统计学所考察的数据都带有随机性（偶然性）的误差。这给根据这种数据所作出的结论带来了一种不确定性，其量化要借助于概率论的概念和方法。数理统计基础：对数据的结构分析和条件检验。对以数据为基础的计量经济学提供前端分析。计量经济学：利用建立模型和优化模型解决实际问题的方法。时间序列分析：是一种动态数据处理的统计方法。该方法基于随

3、机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。4p 数理统计的基本框架：5总体所研究对象的全体。个体：总体中最小的研究单位。总体容量：总体中所包含的个体个数。总体中每一个个体都具有相同的观察特征。样本从总体中抽出若干个个体组成的集体样本容量：样本中所包含的个体个数。样本的分类取决于取得样本的方法。如简单随机样本等。随机变量对客观事物进行观察试验的结果。随机变量是将试验事件数量化。6随机变量的数学特征7p随机变量的数学特征u随机变量的分类定性分类随机变量可分为分类变量和有序变量定量分类随机变量按数据集是否能够取有限个或至多可列个值，可

4、分为离散型变量和连续型变量。离散型变量：随机变量X只可能取有限个或至多可列个值连续型变量：变量可以在某个区间内取任一实数，即变量的取值可以是连续的p 随机变量的数学特征8u分布：分布是形容数据的一类集体形态的特征，分布列或分布函数代表了数据出现在不同位置拥有的不同概率。离散型随机变量的分布列：表现出每一个随机变量取值及出现的概率例：价格A1（70万）A2（88万）A3（108万）占比25%50%25%某楼盘当期开盘的户型总价分布列常见的离散型变量分布：0-1分布，泊松分布p 随机变量的数学特征9p 随机变量的数学特征10最常用的连续型随机变量分布正态分布在统计中，许多重要的分布都是连续型分

5、布，其中一种特别重要的连续型随机变量的概率分布就是正态分布(Normal Distribution)。正态分布最初为 De Moivre于 1773 年发现，其后，拉普拉斯(Laplace)和高斯(Gauss)对它作出了很大的贡献，尤其是高斯的贡献最为突出，所以正态分布又称为高斯分布。p 随机变量的数学特征u 期望u 方差u 协方差与相关系数u 大数定律与中心极限定理11p 随机变量的数学特征期望：在概率论和统计学中，一个离散型随机变量的期望值（或数学期望、或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。离散型随机变量：12以频率为权重的加权平均随机变量X的数学期望，记

6、作E（X），即 13例某楼盘当期开盘的户型总价的分布列求整个项目的平均价格p 随机变量的数学特征E（X）=70*25%+88*50%+108*25%=88.5价格A1（70万）A2（88万）A3（108万）占比25%50%25%p 随机变量的数学特征14u连续型随机变量设连续型随机变量X的概率密度为 f (x), 则u正态分布的期望p 数学期望的意义15试验次数较大时，X的观测值的算术平均值在E(X)附近摆动数学期望又可以称为期望值(Expected Value)，均值(Mean)E(X)反映了随机变量X取值的“概率平均”,是X的可能值以其相应概率的加权平均。p 方差的引入16E( X

7、1 )=50 20 30 50 70 801/8 1/8 1/2 1/8 1/8E( X2 )=50 总价（万元）占比40 50 601/4 1/2 1/4设有两个楼盘，其各户型总价取值规律如下：总价（万元）占比两种个楼盘的总价均值是相同的，但楼盘2的波动更大p 方差17u均方差（标准差）设是一随机变量，如果存在，则称为的方差，记作或即 p 方差的计算步骤18Step 1: 计算期望 E(X)Step 2: 计算 E(X2)Step 3: 计算 D(X)离散型连续型离散型连续型 p 协方差在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特

8、殊情况，即当两个变量是相同的情况。直观上来看，协方差表示的是两个变量总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。19p 相关系数前面说到当两个变量互为统计独立时，协方差COV=0但反之协方差COV=0时，两个变量并不一定统计独立相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用表示,相关系数的取值范围为-1,120定义21样本与总

9、体p 引言22随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。概率论的许多问题中，随机变量的概率分布通常是已知的，或者假设是已知的，而一切计算与推理都是在这已知是基础上得出来的。但实际中，情况往往并非如此，一个随机现象所服从的分布可能是完全不知道的，或者知道其分布概型，但是其中的某些参数是未知的。例如：望今缘在开售之前做市场调查，目标总体内有购房需求客户的当期支付能力或者客户当前对户型面积的需求。所得出的数据集是服从的分布是未知的。数理统计的任务则是以概率论为基础，根据试验所得到的数据，对研究对象的客观统计规律性做出合理的推断。p 样本与总体23总体与样本在数理统计中，把

10、研究对象的全体称为总体（population)或母体，而把组成总体的每个单元称为个体。例如我们做市场调查，目标客户群体就是总体，每一个客户称为个体。总体：样本：在抽取过程中，每抽取一个个体，就是对总体X进行一次随机试验，每次抽取的n个个体，称为总体X的一个容量为n的样本（sample）或子样；其中样本中所包含的个体数量称为样本容量n。总体是唯一的、确定的，而样本是不确定的、可变的、随机的。 p 抽样及抽样方法241.简单随机抽样 2.类型抽样 3.整群抽样 4.等距抽样 5.阶段抽样常用抽样方法定义从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充

11、分的代表性。抽样的目的是从被抽取样品单位的分析、研究结果来估计和推断全部样品特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。p 简单随机样本样本必须具有的性质25代表性即样本( )的每个分量与总体具有相同的概率分布。独立性即每次抽样的结果既不影响其余各次抽样的结果，也不受其它各次抽样结果的影响。满足上述两点要求的子样称为简单随机样本.获得简单随机样本的抽样方法叫简单随机抽样. 样本（sample）总体（population）抽样（sampling）总体容量（population size）N=45样本容量（sample size）n=10为推断总体的某些

12、特征，而从总体中按一定方法抽取若干个体，这一过程称为抽样，所抽取的个体称为样本。抽样方法自有限总体的简单随机抽样简单随机样本有限总体总体中每一个体以相等的概率被抽出，称简单随机抽样。有放回抽样与无放回抽样之分。自有限总体的简单随机抽样，特指有放回抽样。2725213452326282930313336141312111098762120224243449117371635153832394041241834452383257362323129抽样方法自无限总体的简单随机抽样无限总体自无限总体抽取样本，采用无放回抽样。如果满足以下两个条件，则称简单随机抽样：每个个体来自同一个总体样本中每个个体的

13、抽取是独立的简单随机样本抽样方法统计量计算总体确定性样本随机抽样随机性随机性样本统计量做为随机变量，具有特定的概率分布。把握住他们的分布规律就找到了推断总体参数的依据。总体参数理论上可计算确定性抽样分布30统计方法p 参数估计31数理统计问题：如何选取样本来对总体的种种统计特征作出判断。参数估计问题：知道随机变量（总体）的分布类型，但确切的形式不知道，根据样本来估计总体的参数，这类问题称为参数估计。参数估计的类型点估计、区间估计点估计的方法：构造一个统计量来对总体进行估计主要方法：数字特征法、矩法、极大似然法。区间估计：点估计总是有误差的，但没有衡量偏差程度的量，区间估

14、计则是按一定的可靠性程度对待估参数给出一个区间范围。显著性水平置信度显著性水平下，在1- 置信水平下的置信区间：置信度置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度. 概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。是否为大样本 n30值是否已知值是否已知总体是否近似正态分布用样本标准差s 估计用样本标准差s 估计将

15、样本容量增加到n30 以便进行区间估计是是是是否否否否总体均值区间估计程序p 假设检验34引言统计假设通过实际观察或理论分析对总体分布形式或对总体分布形式中的某些参数作出某种假设。假设检验根据问题的要求提出假设，构造适当的统计量，按照样本提供的信息，以及一定的规则，对假设的正确性进行判断。基本原则小概率事件在一次试验中是不可能发生的。p 假设检验35参数的假设检验：已知总体的分布类型，对分布函数或密度函数中的某些参数提出假设，并检验。思想：如果原假设成立，那么某个分布已知的统计量在某个区域内取值的概率应该较小，如果样本的观测数值落在这个小概率区域内，则原假设不正确，所以，拒绝原假设；否则，接受原假设。拒绝域检验水平 p 假设检验36基本步骤 1、提出原假设，确定备择假设； 2、构造分布已知的合适的统计量； 3、由给定的检验水平，求出在H0成立的条件下的临界值（上侧分位数，或双侧分位数）；4、计算统计量的样本观测值，如果落在拒绝域内，则拒绝原假设，否则，接受原假设。37p 相关分析简单相关分析是对两个变量之间的相关程度进行分析。单相关分析所用的指标称为单相关系数，又称为单相关系数、Pearson（皮尔森）相关系数或相关系数。通常以

展开阅读全文