考向43统计与统计案例J-经典题型目录)经典题型一:随机抽样、分层抽样经典题型二:频率分布直方图、条形统计图、折线统计图、扇形统计图经典题型三:百分位数经典题型四:样本的数字特征经典题型五:变量间的相关关系经典题型六:线性回归经典题型七:非线性回归经典题型八:独立性检验经典题型九:误差分析Y经 典 真式)(2 0 2 2 全国高考真题(文)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了 1 0 棵这种树木,测量每棵树的根部横截面积(单位:m?)和材积量(单位:mD,得到如下数据:样本号i1234567891 0总和根部横截面积M0.0 4 0.0 6 0.0 4 0.0 8 0.0 8 0.0 5 0.0 5 0.0 7 0.0 7 0.0 6 0.6材积量%0.2 5 0.4 0 0.2 2 0.5 4 0.5 1 0.3 4 0.3 6 0.4 6 0.4 2 0.4 0 3.9IO 1()10并计算得=0 0 3 8,Z vi2=1.6 1 5 8,Zx)=0.2 4 7 4 .i=l i=I i=l(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量:(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.0 1);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为1 8 6 .己知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.(-)(yi-y)_附:相关系数r=1 J “,J1.896 1.377.(i-)2(yi-y)2V i=l i=l_ 0.6X【解析】(I)样本中10棵这种树木的根部横截面积的平均值 IO3 9样本中10棵这种树木的材积量的平均值歹=常=39据此可估计该林区这种树木平均一棵的根部横截面枳为0.06?,平均棵的材积量为039(2)IOz(i-)(i-)i=llO 10(i-)2(3,i-)2i=I i=l10Z X iX-Io 回i=lJ序-回(沙-回0247470006039=00134=00134 X0 9 7(0.038-10 0.062)(1.6158-10 0.392)0.0001896 0.01377贝 J 3 0.97(3)设该林区这种树木的总材积量的估计值为削3,又已知树木的材积量与其根部横截面积近似成正比,rz,0.06 186 Hn-,可得 0 39=,解之得 y=1209r3.则该林区这种树木的总材积量估计为1209(2022全国高考真题)在某地区进行流行病学调查,随机调查了 100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:频率/组距(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间 2 0,7 0)的概率;(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间 4 0,5 0)的人口占该地区总人口的1 6%.从该地区中任选一人,若此人的年龄位于区间 4 0,5 0),求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0 0 0 1).解析(1)平均年龄5=(5X0001+15 X 0.002+25 X 0.012+35 X 0.017+45 X 0.023+5 5 0.0 2 0 +6 5 0.0 1 7 +7 5 0.0 0 6 +8 5 0.2)1 0 =4 7.9 (岁).(2)设A =一人患这种疾病的年龄在区间1 2 0,7 0),所以P(A)=I-P(A)=1-(0.0 0 1 +0.0 0 2 +0.0 0 6 +0.0 0 2)1 0 =l-0.1 1 =0.8 9 .(3)设 B=任选一人年龄位于区间 4 0,5 0)”,C =“从该地区中任选一人患这种疾病,则由己知得:P(B)=1 6%=0.1 6,P(C)=0.1%=0.l,P(B Ie)=0.0 2 3 x 1 0 =0.2 3.则由条件概率公式可得从该地区中任选一人,若此人的年龄位于区间 4 0,5 0),此人患这种疾病的概率为P(C l B)=3=P(C)P C)=0.0 0 1 x 0.2 3 =.(H4 3 7 5 0.0 0 1 4.知识点一、抽样1、抽样调查(I)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.(2)个体:构成总体的每一个元素叫做个体.(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.2、简单随机抽样(1)定义一般地,设一个总体含有N个个体,从中逐个不放回地抽取W 个个体作为样本(4 N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)两种常用的简单随机抽样方法抽签法:一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取“次,就得到一个容量为的样本.随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字0,1,2,,9 组成,并且每个数字在表中各个位置出现的机会都是一样的.注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.(3)抽签法与随机数法的适用情况抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.(4)简单随机抽样的特征有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.只有四个特点都满足的抽样才是简单随机抽样.3、分层抽样(1)定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.分层抽样适用于已知总体是由差异明显的几部分组成的.(2)分层抽样问题类型及解题思路求某层应抽个体数量:按该层所占总体的比例计算.已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.样 本 容 量 各 层 样 本 数 量分层抽样的计算应根据抽样比构造方程求解,其中“抽 样 比=黑 募=,群 藕注意:分层抽样时,每层抽取的个体可以不一样多,但 必 须 满 足 抽 取 乂(Z =l,2,k)个个体(其中i 是层数,是抽取的样本容量,N,是第,层中个体的个数,N是总体容量).知识点二、用样本估计总体1、频率分布直方图(1)频率、频数、样本容量的计算方法频率组距=频率.频数 频数 样 量=频 率,鬣=样本容量,样本容量X频率=频数.频率分布直方图中各个小方形的面积总和等于1.2、频率分布直方图中数字特征的计算(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为X,利用X 左(右)侧矩形面积之和等于05,即可求出X.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有1 =x+x+xnpn,其中X“为每个小长方形底边的中点,P“为每个小长方形的面积.3、百分位数(1)定义一组数据的第P百分位数是这样一个值,它使得这组数据中至少有P%的数据小于或等于这个值,且至少有(K)O-p)%的数据大于或等于这个值.(2)计算一组”个数据的的第P 百分位数的步骤按从小到大排列原始数据.计算i=p%.若,不是整数而大于i 的 比 邻 整 数 则 第 P 百分位数为第j 项数据;若,是整数,则第尸百分位数为第i 项与第i+1项数据的平均数.(3)四分位数我们之前学过的中位数,相当于是第50百分位数.在实际应用中,除了中位数外,常用的分位数还有第 25百分位数,第 75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.4、样 本的数字特征(1)众数、中位数、平均数众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.平均数:个样本数据斗马,”的平均数为:=+&+%,反应一组数据的平均水平,公式n变形:ZX j=5、标准差和方差(1)定义标准差:标准差是样本数据到平均数的一种平均距离,一般用S表示.假设样本数据是西,2,X表示这组数据的平均数,则标准差S=l(,-X)2+(X2-X)2+(x,-X)2.方差:方差就是标准差的平方,即S?=匕(西一)2+(一分2+(4 分2 显然,在刻画样本数n据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.(2)数据特征标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.(3)平均数、方差的性质如果数据X,电,怎的平均数为五方差为S?,那么一组新数据x+b,x2+b.X”+6 的平均数为x+。
方差是5.一组新数据g,r?.O r,的平均数为 x ,方差是(I)2.(I)(2)3、相关系数若相应于变量X的取值看,变量y的观测值为y,(li4”),则变量X与y的相关系数Z(X i-X)(-y)iyi-yI羽 =/2 L,通常用r来衡量X与y之间的线性关系的强弱,ai-)2(y.-y)2 J 0时,表示两个变量正相关;当r 0.75时,认为两个变量具有很强的线性相关关系.知识点四、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,力),(X2,以),(X,”为),其回归方程y=bx+的求法为_ 丁,_ _(-V,-X)(X-y)Z X J -nxyb=-.-S(X,-x)2 x-r/=1/=1a=y-bx-1 _ 1 _ 其中,X=-Y xi,y=-Y yi,(X,y)称为样本点的中心.2、残差分析对于预报变量j,通过观测得到的数据称为观测值,通过回归方程得到的y 称为预测值,观测值减去预测值等于残差,0,称为相应于点(x,y)的残差,即有a,=M-色.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(I)残差图通过残差分析,残差点(与自)比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和Q=f(%-少A分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;=!反之,不合适.(3)相关指数Z(X -y,)2用相关指数来刻画回归的效果,其计算公式是:R2=I-.(yi-y)2/=IR2越接近于1,说明残差的平方和越小,也表示回归的效果越好.知识点五、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(I)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之。