统计学(贾俊平版)重点

上传人:汽*** 文档编号:431485642 上传时间:2024-02-22 格式:DOCX 页数:13 大小:21.82KB
返回 下载 相关 举报
统计学(贾俊平版)重点_第1页
第1页 / 共13页
统计学(贾俊平版)重点_第2页
第2页 / 共13页
统计学(贾俊平版)重点_第3页
第3页 / 共13页
统计学(贾俊平版)重点_第4页
第4页 / 共13页
统计学(贾俊平版)重点_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《统计学(贾俊平版)重点》由会员分享,可在线阅读,更多相关《统计学(贾俊平版)重点(13页珍藏版)》请在金锄头文库上搜索。

1、弟一章统计:收集、处理、分析、解释数据并从数据中得出结论的科学。数据1.分类数据 对事物进行分类的结果数据,表现为类别,用文字 来表述.例如,人口按性别分为男、女两类2. 顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述 例如,产品分为一等品、二等品、三等品、次品等3. 数值型数据对事物的精确测度,结果表现为具体的数值.例如:身高为 175cm,168cm,183cm总体-所研究的全部元素的集合,其中的每一个元素称为个体-分为有限总体和无限总体.有限总体的范围能够明确确定,且元素的数目是有限的.无限总体所包括的元素是无限的,不可数的样本-从总体中抽取的一部分元素的集合-构成样本的元素

2、数目称 为样本容量参数:描述总体特征。有总体均值()、标准差(。)总体比例(n)统计 量:描述样本特征。样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。经验,理论变量描述统计研究的是数据收集,处理,汇总,图表描述,概括与分析等 统计方法。推断统计是研究如何利用样本数据进行推断总体特征第一章间接数据(查询的)与直接数据:调查(通常是对社会现象而言的)普 查信息全面完整。再一个是实验。概率抽样:也称随机抽样。按一定的概率以随机原则抽取样本,抽取 样本时使每个单位都有一定的机会被抽中-每个单位被抽中的概率 是已知的,或是可以计算出来的-当用样本对总体目标量

3、进行估计 时,要考虑到每个样本单位被抽中的概率简单随机抽样:从总体2个单位中随机地抽取个单位作为样本,每个单位入 抽样本的概率是相等的分层抽样:优点:保证样本的结构与总体的结构比较相近将抽样单位按某种特征 或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样 本,从而提高估计的精度-组织实施调查方便-既可以对总体参数进 行估计,也可以对各层 的目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群, 然后对中选群中的所有单位全部实施调查优点:抽样时只需群的抽样框,可简化工作量-调查的地点相对集 中,节省调查费用,方便调查的实施-缺点是统计的精度较差系统抽样:将总体中

4、的所有单位(抽样单位)按一定顺序排列,在规定 的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的 规则确定其它样本单位-先从数字1到k之间随机抽取一个数字r作为 初始单位,以后依次取r+k,r+2k等单位操作简便,可提高估计的精度多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进 行一步抽样,从选中的群中抽取出若干个单位进行调查-群是初级抽 样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的 段数增多,就称为多阶段抽样非概率抽样:方便抽样(自行确定入抽样本单位),判断抽样(根据经验判 断),自愿样本(被调查者自愿参加),滚雪球抽样(对稀少群体的调查), 配额抽样(先将

5、体中的所有单位按一定的标志(变量)分为若干类,然 后在每个类中采用方便抽样或判断抽样的方式选取样本单位)。概率抽样与非概率抽样的比较1. 概率抽样-依据随机原则抽选样本-样本统计量的理论分布存在-可根据调 查的结果推断总体2. 非概率抽样-不是依据随机原则抽选样本-样本统计量的分布是不确定的无法 使用样本的结果推断总体数据收集的方法:自填式,面访式,电话式数据误差:抽样误差(样本量的大小),非抽样误差。误差的控制统计数据的质量要求1. 精度:最低的抽样误差或随机误差2.准确性:最小的非抽样误差 或偏差3.关联性:满足用户决策、管理和研究的需要4.及时性:在 最短的时间里取得并公布数据5. 一致

6、性:保持时间序列的可比性6.最低成本:以最经济的方式取得数据理M第二章数据审核(完整性和准确性)数据筛选(符合特定条件)数据排序(那一定顺序)数据 透视(按需要汇总)频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据 占全部数据的比值百分比(percentage):将对比的基数作为100而计算的比值比 率(ratio):不同类别数值的比值条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形。有单式条形图、复式条形图等形式主要用于反映分类数据的 频数分布,绘制时,条形图可以横置或纵置,纵置时也称为柱形图。帕累托图:按类别数据出现的频数多少排序后绘制

7、的条形图饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要 用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用 组距分组:将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较 多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距 分组分组数据:直方图(用矩形的宽度和高度来表示频数分布本质上是用矩形的面积 来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各 组与相应的频数就形成了一个矩形,即直方图),折线图。数值型数据:茎叶图,箱线图,线图,数值型数据多变量:散点图(用横轴代表变量x,纵轴代表变量y,每组数据

8、(xi yi) 在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标 及其散点形成的二维数据图),气泡图,雷达图(假定各变量的取值具有相同的 正负号,总的绝对值与图形所围成的区域成正比)一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容 上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的 目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应 当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述 能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的 真实情况第四章集中趋势:一组数据向其中心值

9、靠拢的倾向和程度2.测度集中趋势就是寻找 数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低 层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于 低层次的测众数:1. 一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不 受极端值的影响4. 一组数据可能没有众数或有几个众数5.主要用于分类数据, 也可用于顺序数据和数值型数据中位数:1.排序后处于中间位置上的值2.不受极端值的影响3. 主要用于顺序数据,也可用数值型数据,但不能用于分类数据4. 各变量值与中位数的离差绝对值之和最小四分位数:排序后处于25%和75%位置上的值.平均数:也称为均值,

10、是集中趋势的最常用测度值,一组数据的 均衡点所在。体现了数据的必然性特征,易受极端值的影响。有 简单平均数和加权平均数(分组数据)之分。几何平均数(计算平均比率主要用于计算平均增长率): 平均数的性质:各变量值与均值的离差之和等于零 各变量与均值的离差平方和最小调和平均数:均值的另一种表现形式(直接掌握公式中分子资料, 缺频数资料)离散程度:均值的另一种表现形式(直接掌握公式中分子资料,缺频数资料)异众比率(分类数据):对分类数据离散程度的测度,是非众数 组的频数占总频数的比率,用于衡量众数的代表性四分位差(顺序数据):对顺序数据离散程度的测度2.也称为 内距或四分间距3.上四分位数与下四分位

11、数之差QD = QU - QL4.反映了中间50%数据的离散程度5.不受极端值的影响6. 用于衡量中位数的代表性数值型数据:1.极差:一组数据的最大值与最小值之差,离散程 度的最简单测度值,易受极端值影响,未考虑数据的分布。2. 平均差:各变量值与其平均数离差绝对值的平均数,能全面反 映一组数据的离散程度,数学性质较差,实际中应用较少3. 方差,标准差自由度:自由度是指数据个数与附加给独立的观测值的约束或限 制的个数之差,当样本数据的个数为n时,若样本平均数确定后, 则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可 以自由取值,其中必有一个数据不能自由取值4.按着这一逻辑, 如果对

12、n个观测值附加的约束个数为k个,自由度则为n-k相对位置 的度量:标准分数也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离 群点4.用于对变量的标准化处理经验法则:经验法则表明:当一组数据对称分布时1.约有68%的 数据在平均数加减1个标准差的范围之内2.约有95%的数据在平 均数加减2个标准差的范围之内3.约有99%的数据在平均数加减 3个标准差的范围之内相对离散程度:标准差与其相应的均值之比2.对数据相对离散 程度的测度3.消除了数据水平高低和计量单位的影响4.较用于 对不同组别数据离散程度的比峰态:统计学家Pearson于1905年首次提出,数据分布扁平

13、程度 的测度峰态系数=0扁平峰度适中,峰态系数0为扁平分布,峰 态系数0为尖峰分布偏态:统计学家Pearson于1895年首次提出,是数据分布偏斜程 度的测度3偏态系数=0为对称分布偏态系数 0为右偏分布偏态 系数0为左偏分布4.偏态系数大于1或小于-1,被称为高度偏 态分布;偏态系数在0.51或-1-0.5之间,被认为是中等 偏态分布;偏态系数越接近0,偏斜程度就越低第六早统计量:设X1,X2,Xn是从总体X中抽取的容量为n的一个样 本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何 未知参数,则称函数T(X1,X2,Xn)是一个统计量样本均值、样 本比例、样本方差等都是统计量

14、2.统计量是样本的一个函数, 是随机的。3.统计量是统计推断的基础常用:均值,方差,变异系数,k阶距,k阶中心距,样本偏度和 样本峰度次序统计量:中位数、分位数、四分位数等都是次序统 计量充分统计量:能把总体中包含的信息一点都不损失的提 取出来的统计量,称为充分统计量。抽样分布:1.样本统计量的概率分布,是一种理论分布2在重复选取容量为n 的样本时,由该统计量的所有可能取值形成的相对频数分布3样本统计量是随机 变量,样本均值,样本比例,样本方差等4.结果来自容量相同的所有可能样本提 供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学 性的重要依据渐进分布:1、统计学的抽样分

15、布理论中,至今求出精确分布的并不多。2、 在实用中,常寻求样本容量无限大时,统计量的极限分布,以作为抽样分布的近 似,称为渐进分布。2分布:由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡 皮尔逊(KPearson)分别于1875年和1900年推导出来。性质分布的变量值始终为正分布的形状取决于其自由度n的大 小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对 称t分布:1.高塞特.$.60$、。七)于1908年在一篇以“Student” ( 学生)为笔名的论文中首次提出t分布是类似正态分布的一对 称分布,它通常要比正态分布平坦和分散4. 一个特定的分布依 赖于

16、称之为自由度的参数。随着自由度的增大,分布也逐渐趋于 正态分布F分布:中心极限定理:从均值为八方差为。2的一个任意总体中抽取 容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均 值为、方差为。2/n的正态分布1. 样本均值的均值(数学期望)等于总体均值2. 样本均值的方差等于总体方差的1/n 样本比例抽样分布:在重复选取容量为n的样本时,由样本比例的所有可能取值形成 的相对频数分布2. 一种理论概率分布3.当样本容量很大时,样 本比例的抽样分布可用正态分布近似样本方差分布:在重复选取容量为n的样本时,由样本方差的所 有可能取值形成的相对频数分布第七章估计量:用于估计总体参数的随机变量,如样本均

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号