人民大学统计学在职题库统计综述答案.

资源描述

《人民大学统计学在职题库统计综述答案.》由会员分享，可在线阅读，更多相关《人民大学统计学在职题库统计综述答案.（85页珍藏版）》请在金锄头文库上搜索。

1、1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：1一、（20分）随机抽取20块手机电池，测得其使用寿命数据如下（单位：小时）：10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述数据所适用的统计图形，并说明这些图形的用途。直方图：直观的展示一组数据（电池使用寿命）的分布情况。箱线图：直观反映原始数据（电池寿命）的数据分布的特征，如偏态，是否有离群点。二、（20分）方差分析中有哪些基本假定？这些假定中对哪个假定的要求

2、比较严格？1、方差分析有3个基本假定：（1）正态性：每个总体都应服从正态分布，即对于因子的每一个水平，其观测值是来自正态分布总体的简单随机样本；（2）方差齐性：各个总体的方差必须相同；（3）独立性：每个样本数据是来自因子各水平的独立样本2、对独立性要求比较严格，独立性得不到满足会对方差分析结果有较大影响，对正态性和方差齐性的要求相对比较宽松。三、（20分）某种食品每袋的标准重量是100克，从该批食品中抽取一个随机样本，检验假设，。（1）如果拒绝，你的结论是什么？，如果不拒绝，你的结论是什么？（2）能否得到一个样本能够证明该食品的平均重量是100克？请说明理由。（3）如果由该样本得到的

3、检验的，你的结论是什么？0.03这个值是犯第类错误的概率，是实际算出来的显著性水平，你怎样解释这个值？（1）拒绝：该种食品每袋的平均重量不是100g 不拒绝：提供的样本不能证明该种食品每袋的平均重量不是100g（2）不能，样本得出的结论只能是拒绝或不拒绝原假设，并不能直接确定原假设为真（3）结论：若给定显著性水平为0.05，则可以拒绝原假设，认为该食品每袋的平均重量不是100克；但若给定显著性水平为0.01，则不能拒绝原假设 P值：如果该种食品每袋的平均重量是100g，样本结果会像实际观测那样极端或更极端的概率仅为0.03四、（20分）在建立多元线性回归模型时，通常需要对自变量进行筛选。（

4、1）请谈谈你对变量筛选的必要性的看法。（2）列出变量筛选的方法，请简要说明这些方法的特点。（1）若将所有的自变量都引入回归模型，往往会导致所建立的模型不能进行有效的解释，也可能会导致多重共线性，增加自变量还会导致判定系数增大，从而高估模型拟合优度。（2）变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下：向前选择：从没有自变量开始，不停向模型中增加自变量，直到增加不能导致SSE显著增加为止。向后剔除：从所有自变量开始，不停从模型中剔除自变量，直到剔除不能导致SSE显著减小为止。逐步回归：结合向前选择和向后剔除，从没有自变量开始，不停向模型中增加自变量，每增加一个自变量就对所有现有的自变

5、量进行考察，若某个自变量对模型的贡献变得不显著就剔除。如此反复，直到增加变量不能导致SSE显著减少为止。五、（20分）如果一个时间序列包含趋势、季节成分、随机波动，适用的预测方法有哪些？对这些方法做检验说明。可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进行预测。（1）Winter指数平滑模型包含三个平滑参数，即、（取值均在01），以及平滑值St、趋势项更新Tt、季节项更新It、未来第k期的预测值Ft+k。L为季节周期的长度，对于季度数据，L=4，对于月份数据，L=12；I为季节调节因子。平滑值消除季节变动，趋势项更新是对趋势值得修正，季节项更新是t期的季节调整因子，F

6、t+k=(St+kTt)It-L+k是用于预测的模型。使用Winter 模型进行预测，要求数据至少是按季度或月份收集的，而且需要有四个以上的季节周期（4年以上的数据）。使用Winter 模型进行预测，要求数据至少是按季度或月份收集的，而且需要有四个以上的季节周期（4年以上的数据）。（2）引入季节哑变量的多元回归对于以季度记录的数据，引入3个哑变量Q2、Q3、Q4，其中Q2=1(第1季度)或0(其他季度)，以此类推，则季节性多元回归模型表示为：Y=b0+b1t+b2Q2+b3Q3+b4Q4其中b0是常数项，b1是趋势成分的系数，表示趋势给时间序列带来的影响，b2、b3、b4表示每一季度与参照的第

7、1季度的平均差值。（3）分解预测第1步，确定并分离季节成分。计算季节指数，然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步，建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进行预测。第3步，计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值。2中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：2一、（20分）在某小学随机抽取35名小学生，调查他们每周购买零食的花费情况，得到的数据如下（单位：元）：24172629386284

8、4398301726324010202743331542835264725172645163629375列出描述上述数据所适用的统计量，并说明这些统计量的用途。平均数：用于度量对象的一般水平。中位数（分位数）：用中间（某个）位置上的值代表数据水平，也用于度量对象的一般情况，且不受极值的影响具有稳定性。方差（标准差）：用于描述一组数据的差异水平，越大说明数据的分布越分散不稳定。偏态系数：用于描述数据分布的不对称性，越接近0越对称。峰度系数：用于描述数据分布峰值高低，大于0为尖峰，小于0为扁平分布。二、（20分）简要说明分布和分布在推断统计中应用。t分布：当正态总体标准差未知时，在小样本的条件下

9、对总体均值的估计和检验要用到t分布。描述样本均值分布，用于对两个样本均值差异进行显著性测试、估算置信区间等。F分布：通常用于比较不同总体的方差是否有显著差异。应用于方差分析、协方差分析和回归分析等，还可用于似然比检验。三、（20分）什么是值？要证明原假设不正确，如何确定合理的值？P值：犯第I类错误的真实概率，也称观察到的显著性水平。是当原假设为真时，得到的样本结果会像实际观测结果这样极端或者更极端的概率。若要证明原假设不正确，则由样本得到的P值应小于给定的显著性水平。四、（20分）某企业准备用三种方法组装一种新的产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了30名工人，并指定每个

10、人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果：方差分析表差异源SSdfMSFP-value组间2100.245946组内3836总计2(1) 完成上面的方差分析表。(2) 组装方法与组装产品数量之间的关系强度如何？(3) 若显著性水平，检验三种方法组装的产品数量之间是否有显著差异？（1）差异源SSdfMSFP-value组间2*210=420I-1=2210210142.07=1.4780.245946组内383630-3=27383627=142.07总计420+3836=425629（2）从P值来看，组装方法与组装产品数量之间的关系强度较弱。（3）原假设：三

11、种方法每小时组装的产品数量没有差异若显著性水平为0.05，则P0.05，因此不能拒绝原假设，即不能证明三种方法组装的产品数量之间有显著差异。五、（20分）简要说明分解预测的基本步骤。第1步，确定并分离季节成分。计算季节指数，然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步，建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进行预测。第3步，计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值。3中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：1232

12、01 考题卷号：3一、（20分）在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中，进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表：要对各名运动员进行综合评价，使用的统计量有哪些？简要说明这些统计量的用途。（1）集中趋势：指一组数据向某一中心值靠拢的程度，它可以反映选手射击成绩中心点的位置平均数：一组数据相加后除以数据的个数得到的结果。若各组数据在组内是平均分布的，则计算的结果还是比较准确的，否则误差会比较大。（如中国选手发挥很稳定，适合使用平均数判断其成绩）中位数：一组数据排序后处于中间位置上的变量值，但不受极端值的影响。（如波兰选手大多数成绩比较平均，但有一

13、枪打到8.1，会严重影响其平均值，但不会影响中位数）（2）离散程度：各变量值远离其中心值的程度，它可以反映选手发挥的稳定性标准差：方差的平方根，能够很好的反映出数据的离散程度，若选手的平均成绩差异不大，可以通过直接比较标准差的方式进行衡量离散系数：一组数据的标准差与其相应的平均数之比，离散系数越大则数据的离散程度也大，若选手的平均成绩差异很大，则需要计算离散系数比较稳定性极差：一组数据的最大值与最小值之差，它容易受极端值的影响，不能反映中间数据的分散情况，但可从另一方面选手是否存在发挥异常（3）分布形状峰态：峰态是对数据分布平峰或尖峰程度的测度，当K0时为尖峰分布，数据的分布更集中；当K0时为

14、扁平分布，数据的分布越分散。通过对选手的峰态分布情况分析，可看出成绩分布是否平均。偏态：偏态是对数据分布对称性的测量，若偏态系数明显不等于0，表明分布是非对称的，偏态系数的数值越大，表示偏斜的程度越大。通过对选手的偏态分布情况情况分析，可看出选手成绩分布是否对称，是否受比赛时长影响。二、（20分）为什么说假设检验不能证明原假设正确？（1）假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据（证据的强弱取决于P值的大小）。因此，当拒绝原假设时，表明样本提供的证据证明它是错误的；当没有拒绝原假设时，我们也没法证明它是正确的，因为假设检验的程序没有提供它正确的证据。（2）假设检验得出的结论都是根据原假设进行阐述的。我们要么拒绝原假设，要么不拒绝原假设。当不能拒绝原假设时，我们也不能说“接受原假设”，因为没有足够的证据拒绝原假设并不等于你已经证明了原假设时真的，它仅仅意味着目前我们还没有足够的证据证明原假设，只表示目前的样本提供的证据还不足以拒绝原假设。（3）假设检验通常是先确定显著性水平，这等于控制了第类错误的概率；但犯第类错误的概率却是不确定的。在拒绝H0时，犯第类错误的概率不超过给定的显著性水平；当样本结果显示没有充

展开阅读全文