统计学 期末复习重点

上传人:zw****58 文档编号:43771644 上传时间:2018-06-07 格式:DOC 页数:4 大小:67KB
返回 下载 相关 举报
统计学 期末复习重点_第1页
第1页 / 共4页
统计学 期末复习重点_第2页
第2页 / 共4页
统计学 期末复习重点_第3页
第3页 / 共4页
统计学 期末复习重点_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《统计学 期末复习重点》由会员分享,可在线阅读,更多相关《统计学 期末复习重点(4页珍藏版)》请在金锄头文库上搜索。

1、1统计学统计学:收集、处理、分析、解释数据并从中得出结论的科学。研究对象:客观现象总体的数量特征和 数量关系,及通过数量方面反映的客观现象发展变化规律性。 统计工作统计工作:关于数据采集、整理、分析、发布、使用全过程的活动总称。 统计工作过程统计工作过程:统计设计,统计数据收集,统计整理,统计分析,统计发布,统计资料的整理,开发与应 用。 统计分析方法统计分析方法:描述统计,推断统计。 描述统计描述统计:研究如何取得反映客观现象的数据,通过图表形式对收集的数据进行加工处理和显示,综合、 概括与分析得出反映客观现象的规律性数量特征。 推断统计推断统计:在对样本数据进行描述的基础上,利用一定方法根

2、据样本数据估计活对端总体的数量特征(部 分总体) 。 数据类型数据类型: 定型(品质)数据:分类数据分类数据(eg 购买商品支付方式,职业) 、顺序数据顺序数据(eg 评价教育 质量) ;定量:数值型数据数值型数据(eg 收入,年龄)观测数据(eg 电视收视率) 、实验数据。都在没有对事物 进行人为控制的条件下得到的时间序列数据(又称动态数据,在不同时间或时点收集的数据) (eg 就业 人数逐年变化情况) 、截面数据(又称静态数据,在相同时间下收集的数据,反映不同空间或主体在同一 时间下的数量特征) 、面板数据(时间序列和截面数据的综合,有空间时间两个维度,综合反映不同时间 空间的数据分布情况

3、) 。 总体总体 N:根据一定目的确定的所要研究事物的全体。 个体个体:组成总体的各单位。 样本样本:总体部分单位组成的集合。样本单位必须取自同一总体。样本个数多少和样本量与抽样方法有关。 样本抽取必排除主观因素影响,确保样本客观性代表性。 样本容量样本容量 n:样本所包含的元素。 总体参数参数:描述总体特征的概括性数字度量。总体均值 总体方差 方,总体标准差 总体比例 。 参数对应总体。 统计量统计量:描述样本特征的概括性数字度量。样本均值 x 拔,样本方差 s2样本标准差 s 样本比例 p。统计量 对应样本。 变量变量:说明总体或样本数量特征的属性。分类:分类、顺序、数值型变量连续型、离散

4、型变量。 方便抽样方便抽样:根据调查方便性,以无目标、随意的方式自行确定调查单位。 志愿者抽样志愿者抽样:被调查者自愿参加冰箱调查者提供有关信息。 滚雪球抽样滚雪球抽样:先对随机选择的一些被调查者实施访问,然后请他们推荐具有研究目标总体特征的调查单位。配额抽样配额抽样:根据一定标准对总体分层分类后,从各层各类中主管选取一定比例调查单位。 判断抽样判断抽样:根据经验判断了解的基本情况有目的地选择单位。 统计指标统计指标:说明现象总体数量特征的属性。 统计指标体系统计指标体系:若干相互联系的统计指标构成的有机整体。 统计调查方式统计调查方式:普查:为某特定目专门组织的一次性全面调查。特点:一次性,

5、周期性;规定统一标 准调查时间;数据规范化程度较高;适用范围较窄统计报表抽样调查:从总体中随机抽取部分个体作 为样本进行调查。特点:经济性,时效性强,适应面广,准确性高。 调查方案设计调查方案设计:明确调查目的,确定调查对象和单位,确定调查项目,确定调查时间和方法,调查工作 的组织实施。 调查问卷设计调查问卷设计:引言,被调查者基本情况,问题和答案,结语。问题:开放式开放式问题:优:被调查者有机 会进行自我表达或详细描述。缺:开放式要求更高,被调查者须在没有选项帮助情况下确定问题意图;调 查机构数据录入较困难;费用更高封闭式封闭式:优:答案已设计好,被调查者只需简单地选择合适选项,不 需用自己

6、语言陈述答案,回答问题更快更容易;被调查者更可能按设计者希望的意图回答;数据更易分析; 编码和数据录入更容易,花费更省;若一问题被用于多项调查,相同回答选项有助于对结果进行比较。 数据误差分类数据误差分类:抽样、非抽样误差。 数据预处理数据预处理:数据审核:检查数据错误。审核准确性:逻辑检查,计算检查数据筛选数据排序。 统计表统计表:构成:表头,行标题列标题,数字资料,表外附加。注意:总标题简明扼要;上下两端端线粗 线绘制,其他线细线,左右两端开口式不划线;数字资料应有计量单位;“合计”置于最后一列;没有数 字的单元格用“”表示;填好的统计表无空白单元格。 异众比率异众比率 Vr:非众数组频数

7、占总频数的比率。衡量众数对一组数据代表性程度大小。 Vr(fi-fm)/ fi1-fm/fi 频数频数:落在某一类别或组中的数据个数。 频率频率:各类别频数与总频数之比。 累积频数累积频数:各类别或组的频数逐级累加得到的频数。 帕累托图帕累托图:把各类别数据的频数由大到小排序并计算累积频率绘制条线图。 极差极差 R:一组数据最大值最小值之差。Rmax(xi)-min(xi) 四分位差四分位差 Qd:上四分位数与下四分位数之差,亦称内距、四分间距。反映中间 50%数据离散程度。衡 量中位数代表性。QdQU-QL2抽样分布抽样分布:样本统计量的概率分布。设总体变量 X,X1 到 XN;样本变量 x

8、,x1 到 xn:数学期望:E(x 拔)E(x1+xn)/n1/nE(x1)+E(xn),重复抽样 x1 到 xn 相互独立,且都是从 X1 到 XN 抽取的, 每单位机会相等,概率均为 1/N 所以 E(x1)E(xn)(上 n 下 i=1)XiPi,E(x 拔) 1/nE(x1)+E(xn) 1/n(n)方差:2(x 拔)2(x1+xn) /n2/n 方 (x1+xn)1/n22(x1)+2(xn)重复抽样 x1 到 xn 相互独立,且都是从 X1 到 XN 抽取的,所以 xi 与总体同分布 2(x1)2(xn)2, 方(x 拔) 1/n 方(2+2+2)2/n,2(x 拔)/根 n。 大

9、样本大样本:大样本且 已知:任何服从正态分布的随机变量 95%值在“均值1.96 个标准差”之内。 Z(x 拔-)/ x 拔N(0,1),P(|z|Z/2)=1-,P(|x 拔-|/x 拔Z/2)=1-,P(|x 拔- |Z/2x 拔)=1-,x 拔- Z/2x 拔x 拔+ Z/2x 拔,边际误差 Z/2*/根 nE。 越大,可靠性越低,区间越窄。 未知:x 拔=s/根 n。 假设假设:检验为目的对单或多个总体分布或分布中所含参数具体数值所作的陈述。总体参数:总体均值、 比例、方差。 假设检验假设检验:对总体参数提出某种假设,利用样本信息判断该假设是否成立的方法。采用逻辑上反证法,统 计学上小

10、概率原则。 假设检验假设检验古典方法古典方法:提出假设:原假设(待检验的假设,又称零假设) 、备择假设(与原假设对立的 假设,又称研究假设) 。备择假设常是研究者搜集证据予以支持的假设,原假设常是研究者搜集证据予以 反对的假设确定检验统计量及其分布确定显著性水平及拒绝域:原假设为真时拒绝原假设所犯错位称 为 I 类错误,又叫弃真错误;原假设为假时喂拒绝原假设,II 类错误,取伪错误;原假设被拒绝时才可 能犯 I 错误,未被拒绝时犯 II 错误。构选取决规则:双侧检验:|检验统计量|检验临界值|拒绝 H0,否则不拒绝左侧检验:统计量临界值,拒绝 H0,否则不拒绝右侧检验:检验统计量临界值, 拒绝

11、 H0,否则不拒绝计算检验统计量值作出决策(不能拒绝) 。 总体均值检验总体均值检验:大样本大样本:根据抽样分布理论,x 拔N(, 2/n),将 x 标准化得到检验统计量 z,z 服从标准正态分布。总体方差 2 已知 z(x 拔-0)/(/根 n),2 未知 z(x 拔-0)/(s/ 根 n) 小样本小样本:总体方差 2 已知,=大样本;2 未知,样本方差 s2 代替总体方差 2,统计量不服从标准正 态分布,服从自由度 n-1 的 t 分布,tc 表示有样本数据计算检验统计量具体数值 t(x 拔-0)/(s/根 n)t(n-1)。 总体比例检验总体比例检验:检验统计量 z(p-0)/根 0(1

12、-0)/n 结N(0,1)。双侧检验:H0:0 ,H1:0,|z|za/2;左侧检验:H0:0 ,H1:0,zza;右侧检验:H0:0 ,H1:0,zza。 散点图散点图:水平轴代表自变量 x 纵轴代表因变量 y, (xi,yi)表示点,n 组数据在坐标系中形成的 n 个点 为散点,坐标及散点构成的二维数据图。正线性相关,负线性相关,非线性相关,不相关。 相关系数相关系数 r:根据总体全部数据计算的为总体相关系数 。根据样本数据计算的为样本相关系数。 rs 上方下 xy/SxSy(x-x 拔)(y-y 拔)/根 (x-x 拔)方 结 根 (y-y 拔)方 结(nxy-xy)/根 nx2-(x)

13、2 ny2-(y)2结。度量两个变量线性关系强度的统计量;是随机变量;绝对值小于 1。 相关系数显著性检验相关系数显著性检验:步骤提出假设:H0:0,H1:0 计算检验统计量 t 值:t=r 根(n-2) /(1-r2)结t(n-2) 作出判断:根据显著性水平 自由度 df=n-2 查出 t-检验临界值 t/2(n-2),t 绝 对值临界值绝对值,拒绝原假设,表明总体两变量间存在显著线性关系。 一元线性回归模型一元线性回归模型:回归分析中,被解释变量为因变量 y。y=0+1x+。假定 1:误差项期望值为 0,E()=0,E(0)= 0,E(1)= 1,E(y)= 0+1x。假 2:对所有 x

14、误差项 方差都相同,为 常数 2,即给定 x,y 方差 2。假 3:误差项 是一个服从正态分布随机变量,N(0,2),且独 立,所以对特定 x 所对应 y 和其他 x 所对应 y 不相关;对于任何一个给定的 x,y 都服从期望值 0+1x 方差 2 的正态分布一元线性回归方程也称直线回归方程,形式为 E(y)=0+1x,0 回归直线在 y 轴上的截距,x=0 时期望值;1 直线斜率,表明自变量每变动一单位因变量平均变化量样本回归直线 (估计的回归方程):根据样本数据拟合的直线,yi 约=0 约+1 约 xi。样本模型 yi 约=0 约+1 约 xi+ei,ei 残差,总体误差估计。 最小二乘估

15、计最小二乘估计:用因变量观测值 yi 约 与估计值 yi 约 间的离差平方和最小方法估计 0 约和 1 约。 ei=yi-yi 约,y 约=0 约+1 约 x。Q=e 下 i 上 2=(yi-yi 约)2=(yi-0 约-1 约 xi)2,将 Q 对 0 约 和 1 约 求偏导数,并令其等于 0,yi=n0 约+1 约xi,xiyi=0 约xi +1 约xi2 解得 1 约=(nxiyi-xiyi)/nxi2-(xi)2,0 约=y-1 约 x。 回归直线拟合优度回归直线拟合优度:判定系数:对估计回归方程拟合优度优劣的度量,又称可决系数。因变量 y 取之 不同,y 取值的波动称为变差。变差大小可用实际观测值 y 与其均值 y 只差 y-y 平均表示。n 次观测值总 变差由变差平方和表示,称为误差 SST。SST=(yi-y 平均)2,yi-y 平均=( yi-y 约)+(yi 约-y) , (yi-y 平均) 2=(yi-yi 约)2+(yi 约-y 平均)2。回归平方和 SSR,和 SSE:SST=SSR+SSE,1=SSR/SST+SSE/SSR,判定系

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号