第五章 样本及其分布

上传人:sh****na 文档编号:134571732 上传时间:2020-06-06 格式:PPT 页数:96 大小:5.62MB
返回 下载 相关 举报
第五章 样本及其分布_第1页
第1页 / 共96页
第五章 样本及其分布_第2页
第2页 / 共96页
第五章 样本及其分布_第3页
第3页 / 共96页
第五章 样本及其分布_第4页
第4页 / 共96页
第五章 样本及其分布_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《第五章 样本及其分布》由会员分享,可在线阅读,更多相关《第五章 样本及其分布(96页珍藏版)》请在金锄头文库上搜索。

1、中南大学数学公共课程之数理统计 郭孔华Tel 13873131273Email guokonghua 中南大学数学科学与计算技术学院 变量函数的分布等 但是对一个实际问题 随机变量的概率分布往往是不知道的 如何确定随机变量的概率分布或数字特征就是数理统计要解决的问题 在概率论中 我们所研究的随机变量 它的分布 都是假设已知的 在这一前提下去研究它的性质 特点和规律性 例如求出它的数字特征 讨论随机 数理统计是一个内容十分丰富的数学分支 它既有严格的理论 更有极其广泛的应用 而且 随着科技的发展其研究内容还在不断地充实提高 数理统计的基本概念 从历史的典籍中 人们不难发现许多关于钱粮 户口 地震

2、 水灾等等的记载 说明人们很早就开始了统计的工作 但是当时的统计 只是对有关事实的简单记录和整理 而没有在一定理论的指导下 作出超越这些数据范围之外的推断 到了十九世纪末二十世纪初 随着近代数学和概率论的发展 才真正诞生了数理统计学这门学科 数理统计学 数理统计学是一门应用性很强的学科 它是研究怎样以有效的方式收集 整理和分析带有随机性的数据 以便对所考察的问题作出推断和预测 直至为采取一定的决策和行动提供依据和建议 数理统计学研究的对象及任务 注 只允许我们对随机现象进行次数不多的观察试验 也就是说 我们获得的只是局部观察资料 作出精确而可靠的结论 从总体上来说 数理统计可以分为两大类 一类

3、是如何科学地安排试验 此部分内容称为描述统计学如 试验设计 抽样方法 另一类是研究如何分析所获得的随机数据 对所研究 的问题进行科学的 合理的估计和推断 尽可能地为 采取一定的决策提供依据 这部分的内容称为推断统计学 如 参数估计 假设 检验等 我们主要讨论有关推断统计学中几个最基本的 问题 以获取有效的随机数据 对随机现象进行观测 试验 以取得有代表性的观测值 对已取得的观测值进行整理 分析 作出推断 决策 从而找出所研究的对象的规律性 参数估计 第6章 假设检验 第7章 回归分析 第8章 方差分析 第8章 推断统计学 100个样品进行强度测试 于是面临下列几个问题 例如某厂生产一型号的合金

4、材料 用随机的方法选取 1 估计这批合金材料的强度均值是多少 参数的点估计问题 2 强度均值在什么范围内 参数的区间估计问题 3 若规定强度均值不小于某个定值为合格 那么这 批材料是否合格 参数的假设检验问题 4 这批合金的强度是否服从正态分布 5 若这批材料是由两种不同工艺生产的 那么不同 的工艺对合金强度有否影响 若有影响 那一种工艺 生产的强度较好 分布检验问题 方差分析问题 6 若这批合金 由几种原料用不同的比例合成 那么 如何表达这批合金的强度与原料比例之间的关系 回归分析问题 我们依次讨论参数的点估计 区间估计 假设检验等内容 首先我们讨论数理统计中的一些基本概念 第5章样本及其分

5、布 在数理统计中 我们所研究的随机变量的分布往往是未知的 通过对随机变量进行多次独立重复的试验和观测 获取数据 利用实际观测数据研究随机变量的分布 对其分布函数 数字特征等进行估计和推断 本章作为数理统计基础 学习总体 样本 统计量与抽样分布等有关概念 以及有关正态总体的重要的抽样分布定理 5 1简单随机样本 总体容量有限的称为有限总体 总体 一个统计问题总有它明确的研究对象 1 总体 研究对象的全体称为总体 母体 总体中每个对象称为个体 研究某批灯泡的质量 总体 考察国产轿车的质量 1总体和样本 不过在统计研究中 人们关心总体仅仅是关心其每个个体的一项 或几项 数量指标和该数量指标在总体中的

6、分布情况 该批灯泡寿命的全体就是总体 灯泡的寿命 每公里的耗油量 所有国产轿车每公里耗油量的全体就是总体 这时 每个个体具有的数量指标的全体就是总体 称总体中所含个体的数目为总体容量 总体容量无限的称为无限总体 当个体个数很大时通常把有限总体看作无限总体 那么 此总体就可用描述其寿命的随机变量X或用其分布函数F x 表示 因此在理论上可以把总体与概率分布等同起来 概率分布是刻划这种集体性质最适当的工具 统计的任务 是根据从总体中抽取的样本 去推断总体的性质 由于我们关心的是总体中的个体的某项指标 如人的身高 体重 灯泡的寿命 汽车的耗油量 从另一方面看 如研究某批灯泡的寿命时 关心的数量指标就

7、是寿命 所谓总体的性质 无非就是这些指标值集体的性质 我们用X和Y分别表示身高和体重 那么此总体就可用二维随机变量 X Y 或其联合分布函数F x y 来表示 总体概念的要旨 总体就是一个概率分布 再如 若研究某地区中学生的营养状况时 关心的数量指标是身高和体重 当X为离散型时 称X的概率函数 分布列 为 总体概率函数 当X为连续型时 称X的概率密度为总体密度函数 当总体分布为指数分布时 称为指数分布总体 当总体分布为正态分布时 称为正态分布总体或 简称正态总体等等 例如本市家庭的月收入X是个随机变量 X服从什么 在数理统计中总体X的分布永远是未知的 有足够的理由可以认为总体X服从某种类型的分

8、布 但这个分布的参数还是未知的 分布事先是不清楚的 根据资料可确信 即使 但 究竟取什么值还是未知的 由于总体X的分布是未知的 因此X的数字特征如 均值 方差等往往也是一个未知的值 对于这些未知 值可以根据有关数据来推测 坏性的试验更是不允许对整个总体进行考察 考察某工厂生产的灯泡寿命 考察某型号手机的质量 考察吸烟和患肺癌的关系 在实际问题中 要考察整个总体往往是不可能的 因为它需要耗费太多的资源和太多的时间 有些破 2 样本与简单样本 样本中所包含的个体数目称为样本容量 但是 一旦取定一组样本 得到的是n个具体的数x1 x2 xn 按一定规则从总体中抽取若干个体进行观察试验以获得有关总体的

9、信息 为推断总体分布及各种特征 从国产轿车中抽5辆进行耗油量试验 样本容量为5 样本是随机变量 抽到哪5辆是随机的 容量为n的样本可以看作一n维随机变量 X1 X2 Xn 所抽取的部分个体称为样本 这一抽取过程称为抽样 称为样本 X1 X2 Xn 的一组观测值 简称样本值 样本的值域称为样本空间 它要求抽取的样本X1 X2 Xn满足下面两点 它可以用与总体同分布的n个相互独立的随机变量X1 X2 Xn表示 2 代表性 Xi i 1 2 n 与所考察的总体X同分布 为了使抽取的样本能很好地反映总体的信息 必须考虑抽样方法 最常用的一种抽样方法叫作简单随机抽样 1 独立性 X1 X2 Xn是相互独

10、立的随机变量 抽样的目的是为了对总体进行统计推断 由简单随机抽样得到的样本称为简单随机样本 今后 说到 X1 Xn是取自某总体的样本 时 若不特别说明 就指简单随机样本 则其简单随机样本的联合分布函数为 F x1 x2 xn F x1 F x2 F xn 简单随机样本是应用中最常见的情形 若总体X的分布函数为F x 若总体X的概率密度为f x 则其简单随机样本的联合概率密度为 求样本 X1 X2 X3 的概率分布 ex1 设总体X B 1 p 即P X x px 1 p 1 x X 0 1 设X1 X2 X3为X的一个样本 解 xi 0 1 i 1 2 3 X1 X2 X3 的分布律 P X1

11、 x1 X2 x2 X3 x3 又 x1 x2 x3 0 1 2 3 P X1 x1 X2 x2 X3 x3 k 0 1 2 3 ex2 设总体X服从均值为1 2的指数分布 X1 X2 X3 X4为来自X的样本 求X1 X2 X3 X4的联合概率密度和联合分布函数 解 X的概率密度为 其分布函数为 则X1 X2 X3 X4的联合概率密度为 比如我们从某班大学生中抽取10人测量身高 得到10个数 我们只能观察到随机变量取的值而见不到随机变量 它们是样本取到的值而不是样本 3 总体 样本 样本值的关系 总体 理论分布 样本 样本值 统计是从手中已有的资料 样本值 去推断总体的情况 总体分布F x

12、的性质 总体分布决定了样本取值的概率规律 也就是样本取到样本值的规律 事实上 我们抽样后得到的资料都是具体的 确定的值 因而可以由样本值去推断总体 是总体的代表 含有总体的信息 分散 复杂 样本是联系二者的桥梁 其中 已知 未知 则称g x1 xn 是一个统计量 一个有效的方法就是构造一些样本的函数 若样本函数g x1 xn 中不含任何未知参数 由样本值去推断总体情况 需要对样本值进行 加工 1 统计量 这种不含任何未知参数 完全由样本决定的量称为统计量 通过样本函数把样本中所含的 某一方面 的信息集中起来 定义设X1 X2 Xn是来自总体X的容量为n的样本 样本的函数 ex1 设X1 X2

13、X3是取自正态总体X 2 的一个样本 问下列样本函数中哪些是统计量 那些不是 X1 X2 1 X1 X2 Xn 3 Max X1 X2 X3 我们主要研究两种基本的统计量 样本矩和顺序统计量 2统计量 几个常见的统计量 样本均值 样本方差 反映了总体均值的信息 它反映了总体方差的信息 样本k阶原点矩 样本k阶中心矩 k 1 2 它反映了总体k阶矩的信息 反映了总体k阶中心矩的信息 并称他们相应的观测值 样本标准差 它反映了总体标准差的信息 k 1 2 仍分别为 样本均值 样本方差 样本标准差 样本k阶原点矩 样本k阶中心矩 10样本矩 统称为样本矩 统计量的重要性质 设X1 X2 Xn是来自总

14、体X的容量为n的样本 若X有期望EX 和方差DX 2 则 ex3 1 E S2 2 2 2 n 2顺序统计量与极差 设 为样本 为样本值 且 当 取值为 时 定义r v 则称统计量 为顺序统计量 其中 称 为极差 总体 样本 统计量 描述 作出推断 随机抽样 我们介绍了数理统计的基本概念 小结 5 2抽样分布 统计量的分布称为抽样分布 在使用统计量进行统计推断时常需知道它的分布 当总体的分布函数已知时 抽样分布是确定的 然而要求出统计量的精确分布 一般来说是困难的 本节介绍来自正态总体的几个常用统计量的分布 今后 我们将看到这些分布在数理统计中有重要的应用 1 正态分布 则 特别地 则 若 若

15、 2 伽玛分布 分布 如果连续型随机变量X的密度函数为 为 函数 则称X服从参数是 的伽玛分布 记为X 定义 其中 函数具有以下性质 设X 可以证明 对于任意整数k 有 从而有 一 统计学的三大分布 为了讨论正态总体下的抽样分布 先引入由正态分布导出的统计中的三个重要分布 即分布 分布 分布 1 分布设是来自总体的样本 则称统计量 1 服从自由度为的分布 记为 此处 自由度是指 1 式右端包含独立变量个数 分布的概率密度为 的图形如图5 1所示 2 图5 1 此结论可推广 设且相互独立 分布的可加性 证明略 则 例设是总体的简单随机样本 试确定c和d使得 解 容易求得 并求出n 并且它们是相互

16、独立的 由 2分布的定义知 由此可知 c 1 3 d 1 2 n 2 若 则有 分布的数学期望和方差 因 故 因此 又 于是 则称点为的上分位点 分布的分位点 定义设有分布函数对给定的 若有 6 当有密度函数时 式 6 可写成 7 由上述定义得分布的上分位点为 8 如图5 2所示 对于不同的上分位点的值已制成表格 可以查用 参见附表5 图5 2 例如对于 查得但该表只详列到费歇 R A Fisher 曾证明 当充分大时 近似地有 9 其中是标准正态分布的上分位点 利用 8 式可以求得当时 分布的上分位点的近似值 例如由 9 式可得 由更详细的表得 2 分布 设 且独立 服从自由度为的分布 记为 分布又称为学生氏 student 分布 分布的概率密度函数为 11 图5 3 的点为分布的上分位点 见图6 6 分布的分位点 对于给定的 称满足条件 13 图6 6 由分布上分位点的定义及图形的对称性知 在时 对于常用的的值 就用正态近似 14 分布的上分位点可自附表4查得 15 3 分布 记为 16 的概率密度为 17 图5 4中画出了的图形 由定义可知 若则 18 图5 4 分布的分位点 对

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号