单变量的统计描述－金锄头文库

资源描述

《单变量的统计描述》由会员分享，可在线阅读，更多相关《单变量的统计描述（22页珍藏版）》请在金锄头文库上搜索。

1、一、变量的层次,1、定类变量定类变量是变量层次最低的,它的取值只有类别属性之分,而无大小程度之分.如民族,婚姻等. 2、定序变量定序变量的层次高于定类变量.它的取值除了有类别属性之外,还有等级次序的差别.常见的如受教育程度,满意度,社会经济地位等. 3、定距变量定距变量的层次又高于定序变量.定距变量的取值,除了具有次序属性外,取值之间的距离可以度量.如家庭住房面积,家庭人口数等. 4、定比变量定比变量是将两类相关的数加以对比，形成的相对数，用以反映现象的构成、比重、密度和速度等数量关系。例如将家庭人口数与家庭总支出对比计算家庭人均支出水平。,二、单变量的统计描述方法,（一）分布统计表

2、统计图,1、分布统计学里的分布是指一个概念或变量，它的各种情况出现的次数或频数，也称频次分布。如住房产别包括12种情况，按被访人的回答，可以得到12对数据：(x1，n1)，(x2，n2)(x12，n12). 括号中的第一项表示变量的可能选项，第二项表示所对应的频次。需要注意的是： (1) 变量取值必须完备，只有这样才能使被访者一一无遗地进行归类。(2) 变量取值必须互斥，这样才能使每一个观察值归入一类，且仅仅归入一类。 2、统计表用表格形式来表示变量的分布。统计表必须具备的内容有：表号(统计表x，x)，表头(包括标题、时间、地点)，标识行(产别、频数、频率)，主体行(第一项位置，按

3、列填写变量的不同选项；第二项位置，按列填写变量取值相应的频次和百分比等等)。要写明统计的总数。表尾需要写清资料来源。,定类变量的统计表表1、天津市居民住房的产别分布(1997),定序变量统计表表2 某企业员工的教育水平,定距变量统计表表3、天津市不同收入组居民的住房与收入现状(1997),定距变量制表需要考虑的问题,1、组数组数太少会掩盖变量变动时频次的变化，组数太多，会使每组内频次过少，看不出明显的规律。一般根据理论和经验进行分组。 2、等距分组与非等距分组一般情况下采用等距分组，但研究一些特殊问题，如贫困问题，需要对低收入分得细一些。 3、组限（class limits）就是每组

4、的范围，包括上限和下限。对于离散型变量一般采取相邻组限不重叠的原则，而对于连续型变量，可能出现相邻组限重叠的情况，这时采取的原则就是“上组限不在内”原则。 4、分组步骤第一，搜集数据; 第二，在数据中找出最大值L，最小值S及极差值R; 第三，把数据分组，如K组; 第四，计算组距h; 第五，计算组中值。,3、统计图,定类变量:圆瓣图;条形图定序变量:条形图定距变量:直方图;折线图,（二）集中趋势测量法,（1）集中趋势测量法 (measures of central tendency)：就是找出一个数值来代表变量的资料分布，以反映资料的集结情况。该方法的意义，就是根据该代表值(或称典型值

5、)来估计或预测每个研究对象的数值。（2）运用该方法要舍去变量的某些信息，但由于所根据的数值最有代表性，所产生的误差最小。（3）有三种方法供选择集中值:一是根据频次，哪个变量值具有的频次最多，就选择哪个变量值。二是根据居中。三是根据平均。,表4、各种集中趋势量度的比较,众值、中位值和均值的比较,（）三者设计的目的是相同的，都是希望一个数值来描述整体特征，以便简化资料。（）众值仅使用了资料中最大频次这一信息，因此，资料中信息的使用是不完善的。（）虽然均值对资料的信息利用充分，但对严重偏态的分布，会失去它应有的代表性。（）对于对称的图形，三者位置重叠，当图形正偏或负偏时，均值变化最快，中

6、位值次之，众数不变。,（二）离散趋势测量法,（）离散趋势测量法（measurements of dispersion），是要求出一个值来表示个案与个案之间的差异情况。（）试比较以下两个班次考试成绩：甲：100， 90， 80， 70， 60， 50， 40 乙：85， 80， 75， 70， 65， 60， 55 如果仅用集中趋势测量法来测量两个班的成绩，两班是相等的。但两班的分布显然有差异，需要考虑资料的分散特征。,表5、各种离散趋势量度的比较,（）离异比率（异众比率）（Variation Ratio）离异比率就是非众值的次数与全部样本数目的比率。公式如下：其中，N是全部样本数目，

7、f是众值的次数，二者之差就是非众值的次数。显然，非众值的比例越小，众值的代表性就越好，信息量越大。反之，非众值所占的相对频数越大，众值的代表性越差，所提供的信息量也就越小。,（）四分位差（Interquartile Range）四分位差是定序以上变量度量分散程度的方法。计算方法是将样本由低至高排列，然后分为四个等分（即每个等分包括25%的个案），则第一个四分位置的值（Q1）与第三个四分位置的值（Q3）的差异，就是四分位差（简写为Q）。公式为：Q=Q3-Q1。 25% 25% 25% 25% 低 Q1 Q2 Q3 Q4高,、标准差,定距变量可以利用全距，四分位差计算离散程度，但要损失大

8、量的信息。分析定距变量的离散程度，最常用的方法是标准差（简写S），即将各数值与其均值差的平方和除以全部样板数目，然后取其平方根，公式如下： S= 还可以根据分组资料，公式为：,表6 三群体住房“使用面积”集中和离散趋势对比,单变量统计描述与SPSS统计软件,、频数分析分析步骤：（）单击Analysis菜单，选择Descriptive statistics中的Frequencies选择项，打开相应的对话框。在左侧的源变量框中选择一个或多个变量，单击向右箭头按钮，使其进入Variable框中；（）根据需要选择相应的选择项 Display Frequency Table选择此项将显示频数分布表

9、。选择Statistics，打开统计量选择对话框。在对话框中选择输出统计量。可选择的统计量分四组，每组中的统计量可以同时选择。 A、Percentile Values 百分位数组，可以选择： Quartiles：四分位数，显示25%、50%、75%的百分数； Cut point for equal groups：将数据平分为所设定的相等等份，所选择的数值范围为 2100间的整数。例如，如果键入4，那么数据将会被四等分，即计算四分位数值。 Percentile（s）：由用户定义的百分位数。键入的范围在0100之间。,单变量统计描述与SPSS统计软件,B、Dispersion离散趋势组： Std

10、. deviation标准差 Variance 方差 Range极值，最大值与最小值之差 Minimum最小值 Maximum最大值 S.E.Mean均值的标准误 C、Central Tendency集中趋势组： Mean算术平均数 Median中位数 Mode众数 Sum算术和,单变量统计描述与SPSS统计软件,D、Distribution分布参数组，可以选择以上选择项选择完，单击Continue确认这些选择，返回主对话框。 Chart统计图形单击Chart按纽展开统计图对话框，对图形的类型及坐标等进行设置。 Frequencies Format：设置频数表输出的格式，单击Format按

11、纽打开对话框 Order by排序组，在该组中选择频数表中变量排列顺序。共四个选项： Ascending Values按变量值的升序排列，这是默认的排列方式。 Descending Values按变量的降序排列 Ascending counts 按频数的升序排列 Descending counts按频数的降序排列。,单变量统计描述与SPSS统计软件,、统计量的描述变量的描述统计量有平均值、标准差、最大值、最小值、方差、极值和平均数的标准误。 A、分析步骤单击Analysis菜单，选择Descriptive statistics中的选择项，打开对所选择的每一个变量在数据框中产生其标准化值；

12、Display Label显示变量的标签；在主对话框中单击Option按纽，选择所要描述的统计量与分布单击OK 按钮提交系统执行。 B、数据分组对于定距层次的变量，有时需要先分组，然后在进行统计分布和描述。分组方法如下：单击Transform 菜单，选择recode中的into different Variables选择项。键入要分组的变量，并定义一个新变量名选择Old and New Values命令框定义组限，并赋予一个新值。,三、二变量的统计描述,1, 交叉分组与列联表交叉分组下的频数、频率分析的主要任务有两个：第一、根据搜集到的样本数据产生表2、表3的二维交叉列联表；第二，在交叉列联表的基础上，分析和比较两两变量之间是否具有独立性或相关性。 2, 考虑控制变量下的交叉分组与列联表,

展开阅读全文