数据统计与分析方法

资源描述

《数据统计与分析方法》由会员分享，可在线阅读，更多相关《数据统计与分析方法（122页珍藏版）》请在金锄头文库上搜索。

1、数据统计与分析方法数据统计与分析方法1 1 1 1、数据统计的一般方法；、数据统计的一般方法；、数据统计的一般方法；、数据统计的一般方法；2 2 2 2、数据分析的一般方法；、数据分析的一般方法；、数据分析的一般方法；、数据分析的一般方法；3 3 3 3、了解数据统计和分析在实际案例中的应用；、了解数据统计和分析在实际案例中的应用；、了解数据统计和分析在实际案例中的应用；、了解数据统计和分析在实际案例中的应用；4 4 4 4、了解时间序列分析及相关软件应用；、了解时间序列分析及相关软件应用；、了解时间序列分析及相关软件应用；、了解时间序列分析及相关软件应用；培训主要内容：培训主要内容：心电图的

2、由来1780年有一天，年有一天，43岁的意大利解剖学岁的意大利解剖学家伽伐尼家伽伐尼Galvani Luigi，1737-1798），在实验室解剖青蛙，在用银），在实验室解剖青蛙，在用银质手术刀触碰放在铁盘上的青蛙的时质手术刀触碰放在铁盘上的青蛙的时候，无意间发现青蛙腿部肌肉抽搐了候，无意间发现青蛙腿部肌肉抽搐了一下，仿佛受到电流的刺激如果换一下，仿佛受到电流的刺激如果换用一种金属器械去触动青蛙，就无此用一种金属器械去触动青蛙，就无此种反应。种反应。1832年，一个晴朗的日子，还是意年，一个晴朗的日子，还是意大利，还是青蛙，只是做实验的人大利，还是青蛙，只是做实验的人换成了马泰乌奇。换成了马泰

3、乌奇。这一次，马泰乌奇探测到损伤和未这一次，马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流，他损伤的肌肉之间存在一种电流，他称之为称之为“肌肉电流肌肉电流”。他发现，包。他发现，包括心脏在内，一切正在收缩的肌肉括心脏在内，一切正在收缩的肌肉都会产生肌肉电流。都会产生肌肉电流。1、什么是数据？数据是指对客观事件进行记录并可以鉴数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的物理符号的组合。它是可识别的、抽象的符号。符号。数据表现

4、形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二描述性分析：数据分时段走势、差距变化情况以及描述性分析：数据分时段走势、差距变化情况以及相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三销售码洋结构比销售码洋结构比数据类型数据类型的分类的分类1、计量资料 (measurement data) 用仪器、工具等测量方法获得的数据，又称数值变量。特点：有计量单位，如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料 (count data) 按某种属性分类计数后得到的数据，又称无序分类变量，有二分类和多分类两种情形. 特点：

5、无计量单位，如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男，女)等.3、等级资料 (ordinal data) 半定性或半定量的观察结果，有大小顺序，又称有序分类变量.如癌症分期：早、中、晚。药物疗效：治愈、好转、无效、死亡。尿蛋白： ,+,+及以上住院号住院号年龄年龄身高身高体重体重住院住院天数天数职业职业文化文化程度程度分娩分娩方式方式妊娠妊娠结局结局20256552716571.55无无中学中学顺产顺产足月足月20256532216074.05无无小学小学助产助产足月足月20258302515868.06管理员管理员大学大学顺产顺产足月足月20225432316169.0

6、5无无中学中学剖宫产剖宫产足月足月20224662515962.011商业商业中学中学剖宫产剖宫产足月足月20245352715768.02无无小学小学顺产顺产早产早产20258342015866.04无无中学中学助产助产早产早产20194642415870.53无无中学中学助产助产足月足月20257832915457.07干部干部中学中学剖宫产剖宫产足月足月实例数据计量资料计数资料三类资料间关系三类资料间关系三类资料间关系三类资料间关系例：一组2040岁成年人的血压以12kPa为界分为正常与异常两组，统计每组例数 8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血

7、压计量资料等级资料计数资料第一部第一部数据统计概述数据统计概述什么是统计方法什么是统计方法n统计方法统计方法是指有关收集、整理、分是指有关收集、整理、分析和解释统计析和解释统计数据数据，并对其所反映，并对其所反映的问题作出一定结论的方法。的问题作出一定结论的方法。统计统计方法方法是一种从微观结构上来研究物是一种从微观结构上来研究物质的宏观性质及其规律的独特的方质的宏观性质及其规律的独特的方法。法。一般统计方法n根据数据的根据数据的类型可以分型可以分为以下三种以下三种统计方法方法n1 、计量量资料的料的统计方法方法*n2 、计数数资料的料的统计方法方法n3 、等、等级资料的料的统计方法方法运用

8、统计方法应遵循的原则&坚持用数据持用数据说话的基本的基本观点。点。&有目的地收集数据。有目的地收集数据。&掌握数据的来源。掌握数据的来源。&认真整理数据。真整理数据。统计分析流程统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告，提出解决意或建议计量资料的统计描述计量资料的统计描述1、频数分布(frequencydistribution)为了了解数据的分布情况,可以编制频数表(frequency table).（1）求极差(range)：即最大值与最小值之差，又称为全距。（2）数据分组: 由样本容量n确定组数、通常分10-15个组; 一般采取等距分组

9、, 组距=极差/组数。（3）列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值，其它组段上限值忽略。（4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。l 频数表的编制步骤编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.64

10、0.641591591.711.711601601.771.77 表2-1: 160名正常成年女子的血清甘油三酯（mmol/L）组段组段（1）划划记记（2）频数，频数，f（3）组中值，组中值，X（4） fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.

11、851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30编制频数表,绘制频数分布图对称分布：以频数最多组段为中心左右大体对称.右(正)偏态分布: 频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布: 频数最多组段左侧组段数多.(skewed to the right distribution)2、集中趋势的描述统计上使用平均数(average)来反映计量资料的集中趋势( central tendency ). 常用平均数有：1. 算术均数(arithmetic m

12、ean)，简称均数 (mean)2. 几何均数(geometric mean)3. 中位数 (median)4. 百分位数(percentile)3、离散趋势的描述反映数据的离散度(Dispersion), 即个体观察值的变异(variation)程度, 常用的统计指标有： 1. 极差(Range) (全距) 2. 四分位数间距 (Quartile range) 3. 方差(Variance) 4. 标准差(Standard Deviation) 5. 变异系数(Coefficient of Variation)四分位间距：QRP75 P25三、SPSS实现计量资料的统计描述下下面面是是SP

13、SSSPSS软件中绘制频数图的步骤软件中绘制频数图的步骤四、计数资料的统计描述住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学

14、顺产顺产足月足月200038626无无小学小学顺产顺产足月足月1、计数资料数据的整理、计数资料数据的整理按年龄（按年龄（2 2岁一组）与职业整理岁一组）与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 707011111501502424505034342828525215315344443613612626505043432525454513313370703663662828

15、3434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207207 141141102102208208537537206206140114012、常用相对数指标计数资料常用的数据

16、形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.l率（rate）：说明某现象或某事物发生的频率或强度。率=（实际发生数/可能发生总数）比例基数比例基数：100%、1000、10000/万、100000（1/10万）等如：发病率、死亡率、发生率、阳性率、患病率等l构成比（proportion）：说明某一事物内部，各组成部分所占的比重,也叫百分比。构成比=（某部分观察单位数/各组成部分观察单位总数）100% 如：教研室20人中高级职称有5人，占25。l相对比（relative ratio）：是A、B两个有关指标之比，说明A是B的若干倍或百分之几，通常用倍数或分数

17、表示。如：男：女、医生：护士、教师：学生年龄组年龄组受检人数受检人数白内障白内障例数例数患者年龄患者年龄构成比（构成比（%）患病率（患病率（%）=(3)/(2)4050607080合计合计560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例: 率与构成比率与构成比(1) 不能以构成比代替率。(2) 计算相对数的分母不宜过小, 小则直接叙述。(3) 进行率的对比分析时，应注意资料可比性。如比较疗效时，比较组间应病情轻重相同，性别影响，应按性别分

18、组后再作比较。(4) 正确求平均率。例：若P1=x1/n1 P2=x2/n2 P3=x3/n3 P（x1+ x2+ x3）/ n1+ n2+ n3） (正确) P（P1+ P2+ P3）/3 (错误)3、相对数应用注意事项计数资料和等级资料的SPSS表示五、统计表与统计图统计表(statistical table)数据代替文字描述，便于统计结果的精确、简洁的表达和对比分析. 统计图(statistical chart)用图形代替数据，获得直观、形象的效果.定义:将统计分析的事物及指标用表格列出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短

19、或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成：标题、标目、线条、数字、备注表2-9 某省某工厂 1994、1998年四项检测指标异常检出率检测检测指标指标1994年年1998年年受检人数受检人数异常人数异常人数检出率检出率(%) 受检人数受检人数异常人数异常人数检出率检出率(%) 血压血压心率心率 TTT GPT 5195195195195544362010.16 0.48 6.94 3.85582582582582383923166.526.703.952.75 ：TTT（麝香草酚（麝香草酚浊度度试验），），：GPT（谷丙（谷丙转氨氨酶

20、酶）。）。 (丁建生等丁建生等. 中国中国卫生生统计 1999; 16(3):166 )1、统计表的结构. . . 纵标目总标目（单位）. 合计 . . 横标目纵标目纵标目纵标目总标目横标目的总标目备注：表号标题（包括何时、何地、何事）2、三线表根据分组标目的复杂程度，统计表可大致分为简单表根据分组标目的复杂程度，统计表可大致分为简单表和复合表。和复合表。简单表简单表(simple table)(simple table)：只按一个特征或标志分组。：只按一个特征或标志分组。如表如表2-8 2-8 。复合表复合表(combinative table) (

21、combinative table) ：按两个或两个以上特：按两个或两个以上特征或标志结合起来分组。如表征或标志结合起来分组。如表2-92-9。3、统计表的分类3、不良统计表的修改统计图(statistical chart 或statistical graph)是用点、线、面等几何图形，直观形象地表达、描述数据或结果。 3、统计图 SPSS绘制基本图形SPSS绘制基本图形条形图(Bar Chart) 用途：用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图. 分单式和复式两种.单式条形图复式条形图圆图(Pie Chart) 用途：以圆的半径将圆面分割成多个大小不等的扇形，以扇形

22、面积来表达构成比的图形。线图(Line Chart) 用途：适用于连续变量资料，说明某事物因时间、条件推移而变迁的趋势。直方图(Histogram) 用途：直方图是以面积表示数量，适用于表达连续性资料的频数或频率分布。第二部第二部数据分析概述数据分析概述什么是数据分析n请牢牢记：n所有的分析要从所有的分析要从“结果果” 出出发，没有，没有结论的数字的数字罗列并不是分析；列并不是分析；n“结果果”：发现问题和解决和解决问题。n数据分析不是一数据分析不是一门复复杂的科学的科学；n而是一些而是一些简单的的“common sense”；n复复杂的运算通常只是令分析的运算通常只是令分析结果更差而

23、不是果更差而不是更好；更好；n绝大多数是大多数是简单的想法和的想法和简单的沟通的沟通n数据分析有数据分析有时候是一候是一门艺术n同同样的数据会有不同的解的数据会有不同的解读n优秀和平庸的差异，有秀和平庸的差异，有时候差在一种灵感候差在一种灵感数据分析目的让数据数据说话；行行动的向的向导；杜杜绝浪浪费；提供决策的依据。提供决策的依据。数据分析误区数据分析误区误区一误区一: :展示元素不宜大于展示元素不宜大于3 3个个数据分析误区误区二区二:时间序列数据最好使用折序列数据最好使用折线图，而不宜使，而不宜使用柱状用柱状图等等误区三区三:研究用数据最好不使用三研究用数据最好不使用三维立体立体图数据分析

24、误区误区四：为避免图表的欺骗性，图线最好占据误区四：为避免图表的欺骗性，图线最好占据2/3 2/3 至至3/43/4的高度（调整的高度（调整Y Y轴刻度）轴刻度）数据分析误区常用的数据分析方法常用的数据分析方法1 1、抽样法、抽样法* *2 2、聚类分析（、聚类分析（Cluster AnalysisCluster Analysis）* *3 3、因子分析（、因子分析（Factor AnalysisFactor Analysis）4 4、相关分析、相关分析(Correlation Analysis)(Correlation Analysis)5 5、对应分析对应分析（Correspondenc

25、e Correspondence AnalysisAnalysis）6 6、回归分析（、回归分析（regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analysis of (ANOVA/Analysis of Variance)Variance)8 8、时间序列分析、时间序列分析* *总体总体总体总体: : : :总体、个体总体、个体个体个体个体个体: : : :总体又叫母体，是研究对象的全体。总体又叫母体，是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位，

26、称为个体。构成总体的基本单位，称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体作出估计和判断。作出估计和判断。一般地，设一个总体含有一般地，设一个总体含有N N个个个体个体，从，从中逐个不放回地中逐个不放回地抽取抽取n n个个体作为个个体作为样本样本（nNnN），如果每次抽取使），如果每次抽取使总体总体内的各内的各个个体被抽到的个个体被抽到的机会机会都相等

27、，就把这种都相等，就把这种抽样方法叫做简单随机抽样。抽样方法抽样方法叫做简单随机抽样。抽样方法主要包括：随机抽样、分层抽样、整体主要包括：随机抽样、分层抽样、整体抽样、系统抽样。抽样、系统抽样。样本样本样本样本: : : :样本样本样本样本又叫又叫子样子样，是从总体中抽出来一部分个体的集合。，是从总体中抽出来一部分个体的集合。样本中每个个体叫样本中每个个体叫样品样品，样本中所包含样品数目称为样本大小，样本中所包含样品数目称为样本大小，又叫又叫样本量样本量，常用，常用n n表示。表示。对样本的特性进行测定，所得的数据称为对样本的特性进行测定，所得的数据称为样本值样本值。当样本个数越多时，分析结果

28、越接近总体的值，样本对总体的代当样本个数越多时，分析结果越接近总体的值，样本对总体的代表性就越好。表性就越好。抽样方法抽样方法用的统计抽样方法主要有以下三种用的统计抽样方法主要有以下三种随机抽样法随机抽样法分层抽样法分层抽样法系统抽样法系统抽样法书书业业公公司司抽样方法抽样方法随机抽样随机抽样指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能考虑抽取哪一个样品，完全用偶然方法抽样，常用抽签或利用随机数表来抽取样品以保证样品代表性。抽样当图书品种不多时，随机抽样是一种有效的抽样方法；抽样方法抽样方法分层抽样分层抽样分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层，然后在各

29、层中按照随机原则抽取样本。分层抽样可以减少层内差异，增加样本的代表性。抽样样本当到货产品较多时，分层抽样是一种有效的抽样方法；当到货产品较多时，分层抽样是一种有效的抽样方法；抽样方法抽样方法系统抽样系统抽样从总体中每隔K个个体抽取一个个体的抽样方法，比值K是总体容量N与样本容量n之比；当出版商批量发货及产品特别多时，并且易作某种次序的整理时，当出版商批量发货及产品特别多时，并且易作某种次序的整理时，系统抽样比分层抽样好；系统抽样比分层抽样好； 1， 2， . K K+ 1， K+2， .， 2K 2K + 1， 2K+2， .， 3K 直到 N为止例，从具有1000个个体的总体中抽取50个个体

30、。总体、样本、数据间的关系总体、样本、数据间的关系总体总体样本样本结论结论数据数据抽样分析管理测试数理整理和统计数理整理和统计抽样的目的是通过样本来反映总体。抽样的目的是通过样本来反映总体。在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找出它们的特性，从而推断总体的变化规律、趋势和性质。出它们的特性，从而推断总体的变化规律、趋势和性质。一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标示中心倾向

31、的有平均值、中位值等，表示数据分散程度的有方差、标准偏差、极差等。准偏差、极差等。描述总体数据离散程度的参数为方差描述总体数据离散程度的参数为方差2 2 ，描述总体数据中心倾向的，描述总体数据中心倾向的数为均值数为均值。若利用样本参数近似描述总体状况时，可以利用样本。若利用样本参数近似描述总体状况时，可以利用样本方差方差S S2 2近似代替总体方差近似代替总体方差2 2，利用样本均值，利用样本均值X X近似代替总体均值近似代替总体均值p p。数理整理和统计数理整理和统计样本平均值样本平均值样本中位值样本中位值X = X1+X2+X3 .+Xnn中位值是按照数据大小顺序排列位于中间的数值，中位

32、值记为X若n为偶数，则取位于中间两个数值的平均值为中位值；数理整理和统计数理整理和统计样本极差样本极差样本方差和样本标准偏差样本方差和样本标准偏差样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值，通常记为S2；样本方差的平方根S称作样本标准偏差，它与样本方差一样，是反映一组数据分散程度的特性值:样本极差表示一组数据分布的范围，是指数据中最大值与最小值的差: R = Xmax - Xmin2、聚类分析聚类分析指将物理或抽象对象的集合分组成为由聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。类

33、似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进分类的标准，聚类分析能够从样本数据出发，自动进行分类。行分类。聚类分析所使用方法的不同，常常会得到不同的聚类分析所使用方法的不同，常常会得到不同的结论。不同研

34、究者对于同一组数据进行聚类分析，结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。所得到的聚类数未必一致。分类n俗俗语说，物以，物以类聚、人以群分。聚、人以群分。n但什么是分但什么是分类的根据呢？的根据呢？n比如，要想把中国的比如，要想把中国的县分成若干分成若干类，就有很多，就有很多种分种分类法；法；n可以按照自然条件来分，可以按照自然条件来分，n比如考比如考虑降水、土地、日照、湿度等各方面；降水、土地、日照、湿度等各方面；n也可以考也可以考虑收入、教育水准、医收入、教育水准、医疗条件、基条件、基础设施等指施等指标；n既可以用某一既可以用某一项来分来分类，也可以同，也可以同时

35、考考虑多多项指指标来分来分类。聚类分析n对于于一一个个数数据据，人人们既既可可以以对变量量（指指标）进行行分分类(相相当当于于对数数据据中中的的列列分分类)，也也可可以以对观测值（事事件件，样品品）来来分分类（相相当当于于对数数据据中中的的行行分分类）。）。n比比如如学学生生成成绩数数据据就就可可以以对学学生生按按照照理理科科或或文文科科成成绩（或者（或者综合考合考虑各科成各科成绩）分）分类，n当当然然，并并不不一一定定事事先先假假定定有有多多少少类，完完全全可可以以按按照数据本身的照数据本身的规律来分律来分类。n下下面面要要介介绍的的分分类的的方方法法称称为聚聚类分分析析（cluster

36、analysis）。对变量量的的聚聚类称称为R型型聚聚类，而而对观测值聚聚类称称为Q型型聚聚类。这两两种种聚聚类在在数数学学上上是是对称的，没有什么不同。称的，没有什么不同。饮料数据（drink.sav ）n16种种饮料的料的热量、咖啡因、量、咖啡因、钠及价格四种及价格四种变量量如何度量远近？n如如果果想想要要对100个个学学生生进行行分分类，如如果果仅仅知知道道他他们的的数数学学成成绩，则只只好好按按照照数数学学成成绩来来分分类；这些些成成绩在在直直线上上形形成成100个个点点。这样就就可可以以把把接近的点放到一接近的点放到一类。n如如果果还知知道道他他们的的物物理理成成绩，这样数数学学

37、和和物物理理成成绩就就形形成成二二维平平面面上上的的100个个点点，也也可可以以按按照照距距离离远近来分近来分类。n三三维或或者者更更高高维的的情情况况也也是是类似似；只只不不过三三维以以上上的的图形形无无法法直直观地地画画出出来来而而已已。在在饮料料数数据据中中，每每种种饮料料都都有有四四个个变量量值。这就就是是四四维空空间点点的的问题了。了。聚类分析聚类分析1、系统聚类法、系统聚类法-（分层聚类）系统聚类法是应（分层聚类）系统聚类法是应用最广泛的一种（用最广泛的一种（Hierarchical Cluster过程）过程） 1）、）、聚类原则：都是相近的聚为一类，即距聚类原则：都是相近的聚

38、为一类，即距离最近或最相似的聚为离最近或最相似的聚为一类。一类。 2）、）、分层聚类的方法可以用于样本聚类分层聚类的方法可以用于样本聚类（Q）型，也可以用于变量聚类（）型，也可以用于变量聚类（R型）。型）。2、非系统聚类法、非系统聚类法-（快速聚类法（快速聚类法-K-均值聚类均值聚类法）（法）（K-means Cluster)3、两步聚类法、两步聚类法-一种探索性的聚类方法一种探索性的聚类方法（TwoStep Cluster）K-K-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法，是非系统聚类中最常用的聚类法。又称为快速样本聚类法，是非系统聚类中最常用的聚类法

39、。优点：优点：是占内存少、计算量小、处理速度快，特别适合大样本的是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。聚类分析。缺点：缺点：应用范围有限，要求用户制定分类数目应用范围有限，要求用户制定分类数目(要告知要告知)，只能对，只能对观观测量（样本）测量（样本）聚类，而不能对变量聚类，且所使用的聚类变量聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量必须都是连续性变量。时间序列分析时间序列分析( time series ( time series analysis)analysis)方法方法, ,强调的是通过对一个强调的是通过对一个区域进行一定时间段内的连续遥感观区

40、域进行一定时间段内的连续遥感观测，提取图像有关特征，并分析其变测，提取图像有关特征，并分析其变化过程与发展规模。当然，首先需要化过程与发展规模。当然，首先需要根据检测对象的时相变化特点来确定根据检测对象的时相变化特点来确定遥感监测的周期，从而选择合适的遥遥感监测的周期，从而选择合适的遥感数据。感数据。时间序列分析时间序列分析( time series analysis)( time series analysis)时间序列的基本概念时间序列的基本概念一、一、时间序列序列1 1、含、含义：指被：指被观察到的依察到的依时间为序排列的数据序列。序排列的数据序列。2 2、特点：、特点：（1 1）现实

41、的、真的、真实的一的一组数据，而不是数理数据，而不是数理统计中做中做实验得到的。既得到的。既然是真然是真实的，它就是反映某一的，它就是反映某一现象的象的统计指指标，因而，因而，时间序列背后序列背后是某一是某一现象的象的变化化规律。律。（2 2）动态数据。数据。2010年11月17日-2011年4月8日上证综指二、二、时间序列分析序列分析时间序列分析：是一种根据序列分析：是一种根据动态数据揭示系数据揭示系统动态结构和构和规律的律的统计方方法。其基本思想：根据系法。其基本思想：根据系统的有限的有限长度的运行度的运行记录（观察数据），建立察数据），建立能能够比比较精确地反映序列中所包含的精确地反

42、映序列中所包含的动态依存关系的数学模型，并借以依存关系的数学模型，并借以对系系统的未来的未来进行行预报三、确定性三、确定性时间序列分析与随机性序列分析与随机性时间序列分析序列分析: :时间序列依据其特征，有以下几种表序列依据其特征，有以下几种表现形式，并形式，并产生与之相适生与之相适应的分析方的分析方法：法：（1 1）长期期趋势变化化受某种基本因素的影响，数据依受某种基本因素的影响，数据依时间变化化时表表现为一种确定一种确定倾向，它按向，它按某种某种规则稳步地增步地增长或下降。或下降。使用的分析方法有：移使用的分析方法有：移动平均法、指数平滑法、模型平均法、指数平滑法、模型拟和法等；和法等；

43、（2 2）季）季节性周期性周期变化化受季受季节更替等因素影响，序列依一固更替等因素影响，序列依一固定周期定周期规则性的性的变化，又称商化，又称商业循循环。采用的方法：季采用的方法：季节指数；指数；（3 3）循）循环变化化周期不固定的波周期不固定的波动变化。化。(4)(4)随机性随机性变化化由由许多不确定因素引起的序列多不确定因素引起的序列变化。它所使用的分析方法就是我化。它所使用的分析方法就是我们要要讲的的时间序序列分析。列分析。趋势变化分析化分析确定性确定性变化分析化分析周期周期变化分析化分析循循环变化分析化分析时间序列分析序列分析随机性随机性变化分析化分析: AR: AR、M

44、AMA、ARMAARMA模型模型 Wold分解定理（1938）n对于任何一个离散平于任何一个离散平稳过程程它都可以分解它都可以分解为两个不相关的平两个不相关的平稳序列之和，其中一个序列之和，其中一个为确定确定性的，另一个性的，另一个为随机性的，不妨随机性的，不妨记作作其中：其中：为确定性序列，确定性序列，为随机序列，随机序列，它它们需要需要满足如下条件足如下条件（1）（2）（3）确定性序列与随机序列的定义n对任意序列任意序列而言，令而言，令关于关于q期之前的序列期之前的序列值作作线性回性回归其中其中为回回归残差序列，残差序列，。 n确定性序列，若确定性序列，若n随机序

45、列，若随机序列，若Cramer分解定理（1961）n任何一个任何一个时间序列序列都可以分解都可以分解为两部分的两部分的叠加：其中一部分是由多叠加：其中一部分是由多项式决定的确定性式决定的确定性趋势成分，另一部分是平成分，另一部分是平稳的零均的零均值误差成分，即差成分，即确定性影响随机性影响循环变动循环变动C（Cyclical）不规则变动不规则变动I（Irregular）季节变动季节变动S（Seasonal）长期趋势长期趋势T（Trend）对两个分解定理的理解nWold分解定理分解定理说明任何平明任何平稳序列都可以分解序列都可以分解为确确定性序列和随机序列之和。它是定性序列和随机序列之和。它是

46、现代代时间序列分序列分析理析理论的灵魂，是构造的灵魂，是构造ARMA模型模型拟合平合平稳序列序列的理的理论基基础。nCramer 分解定理是分解定理是Wold分解定理的理分解定理的理论推广，推广，它它说明任何一个序列的波明任何一个序列的波动都可以都可以视为同同时受到受到了确定性影响和随机性影响的了确定性影响和随机性影响的综合作用。平合作用。平稳序序列要求列要求这两方面的影响都是两方面的影响都是稳定的，而非平定的，而非平稳序序列列产生的机理就在于它所受到的生的机理就在于它所受到的这两方面的影响两方面的影响至少有一方面是不至少有一方面是不稳定的。定的。确定性时序分析的目的n克服其它因素的影响，克

47、服其它因素的影响，单纯测度出某一个确定性因素度出某一个确定性因素对序列的影响序列的影响n推断出各种确定性因素彼此之推断出各种确定性因素彼此之间的相互作用关系及它的相互作用关系及它们对序列的序列的综合合影响影响4-3-2 4-3-2 时间序列时间序列趋势分析趋势分析n目的目的n有些有些时间序列具有非常序列具有非常显著的著的趋势，我，我们分析的目的就是要找到序列中分析的目的就是要找到序列中的的这种种趋势，并利用，并利用这种种趋势对序列的序列的发展作出合理的展作出合理的预测 n常用方法常用方法n趋势拟合法合法n平滑法平滑法趋势拟合法n趋势拟合法就是把合法就是把时间作作为自自变量，相量，相应的序列的序

48、列观察察值作作为因因变量，量，建立序列建立序列值随随时间变化的回化的回归模型的方法模型的方法 n分分类n线性性拟合合n非非线性性拟合合线性拟合n使用使用场合合n长期期趋势呈呈现出出线形特征形特征n模型模型结构构例:拟合澳大利亚政府19811990年每季度的消费支出序列线性拟合n模型模型n参数估参数估计方法方法n最小二乘估最小二乘估计n参数估参数估计值拟合效果图非线性拟合n使用使用场合合n长期期趋势呈呈现出非出非线形特征形特征 n参数估参数估计指指导思想思想n能能转换成成线性模型的都性模型的都转换成成线性模型，用性模型，用线性最小二乘法性最小二乘法进行参数估行参数估计n实在不能在不能转换成成线

49、性的，就用迭代法性的，就用迭代法进行参数估行参数估计常用非线性模型模型变换变换后模型参数估计方法线性最小二乘估计线性最小二乘估计迭代法迭代法迭代法例：对上海证券交易所每月末上证指数序列进行模型拟合非线性拟合模型模型变换参数估参数估计方法方法线性最小二乘估性最小二乘估计拟合模型合模型:拟合效果图时间序列序列预测法法时间序列序列预测法可用于短期法可用于短期预测、中期、中期预测和和长期期预测。根据。根据对资料料分析方法的不同，又可分分析方法的不同，又可分为：简单序序时平均数法、加平均数法、加权序序时平均数法平均数法平滑法平滑法是平滑法是进行行趋势分析和分析和预测时常用的一种方法。它是利用修

50、匀技常用的一种方法。它是利用修匀技术，削弱短期随机波削弱短期随机波动对序列的影响，使序列平滑化，从而序列的影响，使序列平滑化，从而显示出示出长期期趋势变化的化的规律律n简单平均数法平均数法 : :也称算也称算术平均法。即把若干平均法。即把若干历史史时期的期的统计数数值作作为观察察值，求出算，求出算术平均数作平均数作为下期下期预测值。这种方法基于下列假种方法基于下列假设：“过去去这样，今后也将，今后也将这样”，把近期和，把近期和远期数据等同期数据等同化和平均化，因此只能适用于事物化和平均化，因此只能适用于事物变化不大的化不大的趋势预测。如果事物呈。如果事物呈现某种上升或下降的某种上升或下降的趋势

51、，就不宜采用此法。就不宜采用此法。n加加权平均数法平均数法: : 就是把各个就是把各个时期的期的历史数据按近史数据按近期和期和远期影响程度期影响程度进行加行加权，求出平均，求出平均值，作，作为下期下期预测值。移动平均法n基本思想基本思想n假定在一个比假定在一个比较短的短的时间间隔里，序列隔里，序列值之之间的差异主要是由随机波的差异主要是由随机波动造成的。根据造成的。根据这种假定，我种假定，我们可以用一定可以用一定时间间隔内的平均隔内的平均值作作为某一期的估某一期的估计值 n分分类nn期中心移期中心移动平均平均nn期移期移动平均平均移动平均期数确定的原则n事件的事件的发展有无周期性展有无周期性n

52、以周期以周期长度作度作为移移动平均的平均的间隔隔长度度，以消除周期效，以消除周期效应的影响的影响n对趋势平滑的要求平滑的要求n移移动平均的期数越多，平均的期数越多，拟合合趋势越平滑越平滑n对趋势反映近期反映近期变化敏感程度的要求化敏感程度的要求 n移移动平均的期数越少，平均的期数越少，拟合合趋势越敏感越敏感移动平均预测时间序列模型的基本概念及其适用性时间序列模型的基本概念及其适用性时间序列模型的基本概念时间序列模型的基本概念随随机机时间序序列列模模型型（nime series modeling）是是指指仅用用它它的的过去去值及随机及随机扰动项所建立起来的模型，其一般形式所建立起来的模型，其

53、一般形式为 Yn=F(Yn-1, Yn-2, , n) 建立具体的建立具体的时间序列模型，需解决如下三个序列模型，需解决如下三个问题： (1)模型的具体形式模型的具体形式 (2)时序序变量的滞后期量的滞后期 (3)随机随机扰动项的的结构构例例如如，取取线性性方方程程、一一期期滞滞后后以以及及白白噪噪声声随随机机扰动项（ n = n），模模型型将是一个将是一个1阶自回自回归过程程AR(1)： Yn=aYn-1+ n这里，里， n特指特指一白噪声一白噪声。一般的p阶自回归过程阶自回归过程AR(p)是 Yn=a1Yn-1+ a2Yn-2 + + apYn-p + n (*) (1)如果随机扰动项

54、是一个白噪声(n=n)，则称(1)式为一纯纯AR(p)过过程程（pure AR(p) process），记为 Yn=a1Yn-1+ a2Yn-2 + + apYn-p +n (2)如果n不是一个白噪声，通常认为它是一个q阶的移动平均（移动平均（moving average）过程）过程MA(q)： n=n - c1n-1 - c2n-2 - - cqn-q 该式给出了一个纯纯MA(q)过过程程（pure MA(p) process）。一般的p阶自回归过程阶自回归过程AR(p)是 Yn=a1Yn-1+ a2Yn-2 + + apYn-p + n (1) 将将纯AR(p)AR(p)与与纯MA(q)

55、MA(q)结合，得到一个一般的合，得到一个一般的自回自回归移移动平均平均（aunoregressive moving average）过程程ARMA（p,q）： Yn=a1Yn-1+ a2Yn-2 + + apYn-p + n - c1n-1 - c2n-2 - - cqn-q 该式表明：该式表明：（1）一一个个随随机机时时间间序序列列可可以以通通过过一一个个自自回回归归移移动动平平均均过过程程生生成成，即该序列可以由其自身的过去或滞后值以及随机扰动项来解释。（2）如如果果该该序序列列是是平平稳稳的的，即它的行为并不会随着时间的推移而变化，那那么么我我们们就就可可以以通通过过该该序序列列过过去

56、去的的行行为为来预测未来。来预测未来。这也正是随机时间序列分析模型的优势所在。需要需要说明的是，明的是，在上述模型的平在上述模型的平稳性、性、识别与估与估计的的讨论中，中，ARMA(p,q)模型中均未包含常数模型中均未包含常数项。如果包含常数项，该常数项并不影响模型的原有性质如果包含常数项，该常数项并不影响模型的原有性质，因为通过适当的变形，可将包含常数项的模型转换为不含常数项的模型。下面以一般的ARMA(p,q)模型为例说明。对含有常数项的模型方程两边同减/(1-a1-ap)，则可得到其中趋势项和季节性的典型趋势项和季节性的典型差分差分处理方法处理方法 1. 1. 恒定趋势恒定

57、趋势即总的趋势保持在同一水平，均值即总的趋势保持在同一水平，均值 0 0。引入算。引入算子子，定义为：，定义为： = =（1 1 B) B), , 即即 x xt t = x= xt t - - x xt-1 t-1 可以消除恒定趋势。可以消除恒定趋势。例如例如 IBM IBM 股票模型用股票模型用 x xt t = =（1 - 1 - 1 1B) a B) a t t 更为合适。有恒定趋势的模型更为合适。有恒定趋势的模型有一个极点的绝有一个极点的绝对值接近为对值接近为 1 1 。2. 2. 线性趋势线性趋势总趋势按照线性规律增减，即模型总趋势按照线性规律增减，即模型有两个极点有两个极点的

58、绝对值接近为的绝对值接近为1 1的情况的情况。用算子。用算子 : : 2 2 = ( 1 = ( 1 B ) B )2 2 可以消除线性趋势，例如：可以消除线性趋势，例如： 2 2 x xt t = =（1 - 1 - 1 1B) B) a a t t 3. 3. 多项式趋势多项式趋势有多个极点的绝对值接近于有多个极点的绝对值接近于1 1 , , 引入算子引入算子 : : 3 3 = ( 1 = ( 1 B ) B )3 3 例如：例如： 3 3 x xt t = =（1 - 1 - 1 1B - B - 2 2 B B 2 2）a a t t4. 4. 季节性季节性有的时间序列按照一定的周

59、期波动有的时间序列按照一定的周期波动, ,例如月平例如月平均温度是按照均温度是按照 12 12个月的周期波动的，每小时用个月的周期波动的，每小时用电量按照电量按照2424小时的周期变化小时的周期变化，称为季节性。，称为季节性。为消除季节性的影响，引入算子：为消除季节性的影响，引入算子： s s=1 =1 B Bs例如，航空公司的模型例如，航空公司的模型ARAR（1313，1313）模型中的）模型中的参数参数 1 1 1212 的数值都很小，而接近于零，用的数值都很小，而接近于零，用周期为周期为1212的模型为合适。由于该时间序列不仅的模型为合适。由于该时间序列不仅有周期为有周期为1212的季节

60、性，而且还有恒定趋势，所的季节性，而且还有恒定趋势，所以用以下模型最合适：以用以下模型最合适：12 12 = (1 = (1 B)( 1 B)( 1 B B 1212) x) xt t =(1 - =(1 - 1 1B ) (1 - B ) (1 - 12 12 B B 1212) a ) a t t 例例甘肃省旅游情况甘肃省旅游情况1autoreg 1autoreg 过程输出的二次曲线拟合效果图过程输出的二次曲线拟合效果图 nlin nlin 过程输出的指数曲线拟合效果图过程输出的指数曲线拟合效果图为了直观地看出拟合效果，我们将原序为了直观地看出拟合效果，我们将原序列和拟合值联合作图，输出图形为上图；列和拟合值联合作图，输出图形为上图；通过该图可以看出拟合效果非常不错。通过该图可以看出拟合效果非常不错。也可以用得到的函数进行预测也可以用得到的函数进行预测谢谢大家！谢谢大家！

展开阅读全文

数据统计与分析方法

最新文档