《统计学30556-统计思想综述题库答案重点讲义资料.doc》由会员分享,可在线阅读,更多相关《统计学30556-统计思想综述题库答案重点讲义资料.doc(62页珍藏版)》请在金锄头文库上搜索。
1、感谢在校统招的同学帮忙把绝大多数都做了,但可能还是落下了少数题目。如有高手能够补完,还请与其他同学分享。卷1一、直方图:直观的给出原始数据(电池寿命)的分布情况箱线图:直观的识别出原始数据(电池寿命)的异常值,并展示出分布的峰度和偏态。二、(1)方差分析中有三个基本的假定。1、正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;2、方差齐性:各个总体的方差必须相同;3、独立性:每个样本数据是来自因子各水平的独立样本。 (2)在上述3个假定中,对独立性的要求比较严格,若该假设得不到满足时,方差分析的结果往往会受到较大影响。而对正态性和方差齐性的要求
2、相对比较宽松。三、(1)拒绝的结论是:该食品每袋的平均重量不是100克;不拒绝的结论是:样本提供的证据不能证明该食品每袋的平均重量不是100克。(2)不能。样本得出的结论只能用于拒绝原假设,而不能证明原假设为真。(3)结论:若该食品每袋的平均重量是100克,则得到的样本会像现在观测到的结果这样极端或者更极端的概率仅为0.03。解释P值:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设。四、(1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性。(2)变量筛选有向前选
3、择、向后剔除、逐步回归等方法。特点如下。向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致SSE显著增加为止。向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致SSE显著减小为止。逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除之。如此反复,直到增加变量不能导致SSE显著减少为止。五、有季节性多元回归模型、时间序列分解法等方法。季节性多元回归模型引入虚拟变量来表示季节,对于以季度记录的数据,引入3个虚拟变量Q1、Q2、Q3,其中Q1=1(第1季度
4、)或0(其他季度),Q2=1(第2季度)或0(其他季度),Q3=1(第3季度)或0(其他季度),则季节性多元回归模型表示为:其中b0是时间序列平均值,b1是去市场分的洗漱,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第4季度的平均差值。时间序列分解法分3步:第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得
5、到最终的预测值。卷2一、平均数:用于表示统计对象的一般水平,常为算术平均数。中位数:也可用于表示统计对象的一般情况,而且不受极值的影响。方差:用于描述数据的离散程度,越大说明数据的分布越分散。偏态系数:用于描述数据分布的不对称性。峰度系数:用于描述数据分布的尖峰或平峰程度。二、t分布:描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。F分布:应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。三、P值是当原假设为真时,得到的样本会像现在观测到的结果这样极端或者更极端的概率。若要证明原假设不正确,则由样本得到的P值应小于给定的显著性水平。四、(1)差异源SSdfMS
6、FP-value组间42022101.4780.245946组内383627142.074总计425629(2)从P值来看,组装方法与组装产品数量之间的关系强度较弱。(3)若显著性水平为0.05,则P0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。五、时间序列分解法分3步:第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。第三步,计算出最后的预测值。用预测
7、值乘以相应的季节之术,得到最终的预测值。考题卷号:3一、 (20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表:要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。有, 平均数、众数和中位数、方差、离散系数、偏态和峰态其中平均数、众数和中位数是评价数据的集中趋势的,可以座位数的平均水平或代表值,三者略有差异。三者特点和差异如下众 数 不受极端值影响具有不惟一性数据较多时有意义,且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响利用了全部数据信息,数学性质
8、优良数据对称分布或接近对称分布时应用较好当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性方差、离散系数都是可以评价数据的离散程度的。:二、 (20分)为什么说假设检验不能证明原假设正确?1.假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”
9、的表述方式实际上意味着没有得出明确的结论3. 假设检验中通常是先确定显著性水平,这就等于控制了第类错误的概率,但犯第类错误的概率却是不确定的。三、 (20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取36班公共汽车,得到平均行驶的时间为26分钟,标准差为8分钟。(1) 说明样本均值服从什么分布?依据是什么?(2) 计算平均行驶时间95%的置信区间。(3) 解释95%的置信水平的含义。(,)略四、 (20分)设单因素方差分析的数学模型为:。解释这一模型的含义,并说明对这一模型的基本假定。模型表明,因变量手自变量的变动主要来自于两方面,一个自变量,另一个是随机扰动。基本假定:随
10、机扰动服从正态分布五、 (20分)在多元回归中,判断共线性的统计量有哪些?简要解释这些统计量。答案见第五套题 考题卷号:4一、 (20分)在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示:运动员决赛成绩庞 伟9.310.310.510.310.410.310.710.410.79.3秦钟午9.59.910.610.39.410.210.110.89.99.8根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0.445环。比较分析哪个运动员的发挥更稳定。可以算出中国选手的平均数和方差,方差小的发挥更稳定二
11、、 (20分)什么是统计意义上的显著性?为什么说统计上显著不一定就有现实意义?统计意义上的显著性是指规定一个最小的容错概率,如果犯错的概率小于这个容错概率则说是显著的,但在现实中各个行业各个领略同样的容错概率对应的意义不同,同样的容错概率在有的行业带来的损失要远大于其他行业,所以要根据实际情况来看。具体的来说:在假设检验中,拒绝原假设称样本结果在“统计上是显著的”;不拒绝原假设则称结果是“统计上不显著的”。“显著的”在这里的意义是指“非偶然的”,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的,则表明这样的样本结果很可能是偶然得到的。在进行决策时,我们只能说P值越小,拒绝原假设的证据就
12、越强,检验的结果也就越显著。当P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义,因为假设检验中所说的“显著”仅仅是“统计意义上的显著”。也就是说,一个在统计上显著的结论在实际中却不见得就很重要,也不以为着就有实际意义三、 (20分)简要说明判断一组数据是否服从正态分布的统计方法。方法有很多,即雅克贝拉检验 还有其他一些分布检验如卡方检验,K-S检验、即雅克贝拉检验、PP图,或QQ图及偏态和直方图。样量化判断数据是否服从正态分布? 数据是否服从正态分布,除了做数据分布直方图来判断,是不是还可用公式计算?量化计算方法是什么? j-b检验,即雅克贝拉检验 还有其他一些分布检验如卡方检验,
13、K-S检验,都是用来检验分布的。 游程检验也可以用来检验分布。 你可以使用SPSS的explore,或PP图,或QQ图,具体的一般可以万采取下列几种做法1、K-S 检测,在explore 中会有这一选项,在非参数检验中也有,它会给出一个sig,你通过看这个数就可以判断数据是否服从正态分布 2、通过P-P图目测,这样做的好处在于直观 3、就是看峰度和偏度了,你要问偏度在什么范围内是服从正态分布,这个统计学上没有定论,如果偏度等于0就是完美的,一般接近这个值就可以了 (20分)国家统计局目前对地区的划分中,将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。(1) 要分析四个地区的
14、平均消费水平是否存在显著差异,所用的统计方法有哪些?这些方法的区别是什么?(2) 你会选择什么方法进行分析?你的假设是什么?(1)可以选用的方法有 F检验,非参中的ridit方法。假定不同(2)我会选非参方法。原假设为四个地区平均消相同费水平四、 (20分)一家房地产评估公司想对某城市的房地产销售价格(元/m2)与地产的评估价值(万元)、房产的评估价值(万元)和使用面积(m2)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显著性水平为95%):方差分析dfSSMSFSig.回归387803505.4629267835.1546.703.879E-08残差1610028174.54626760.91总计1997831680Coefficients标准误差t StatP-valueIntercept148.7005574.42130.25890.799X Variable 10.81470.5121.59130.1311X Variable 20.8210.21123.88760.0013X Variable 30.1350.06592.05030.0571对所建立的回归模型进行综合评价。从F检验来看,模型整体是很显著地。具体来看X Variable 2和X Variable 3显著性更强,如果将