应用统计学教学（北大）应统作业hw2_答案

资源描述

《应用统计学教学（北大）应统作业hw2_答案》由会员分享，可在线阅读，更多相关《应用统计学教学（北大）应统作业hw2_答案（8页珍藏版）》请在金锄头文库上搜索。

1、姓名：学号：作业二1、假设我们得到一个抽样调查数据，从下面这段信息中，你发现了什么？两个变量分别为：“性别和“在生活目标中，个人富有的重要性程度请进行描述和分析。 Pearson Chi-Square= Sig=0.141；Lambda=.015 Sig=0.570；n=974注：带有下划线的是答题点，请同学们对照参考。根据上表，我们发现个人富有在生活目标中的重要性并不因为性别不同而有明显的差异Chi-Square= 1。尽管从百分比上对于表格中的数据需要解读给读者中听，不用解释左右的数字，只要告诉读者这个百分比是怎么读的就行了看，有26.6%的男性居民认为个人富有非常重要，有33.3%的女

2、性居民认为其非常重要，但是这种差异并不显著。2、假设我们得到一个抽样调查数据，从下面这段信息中，你发现了什么？请进行描述和分析。表6-13 不同受教育程度人群通过小道消息了解时事政治的差异%小学及以下初中高中大专及以上合计有没有注：Pearson Chi2 n=3988根据表6-13，我们发现不同受教育程度的人群在通过小道消息了解时事政治上存在显著差异Pearson Chi2，。具体来说，小学及以下学历者从小道消息了解时事政治的比例最低，只有9.79%；然后是初中学历者17.81%，大专及以上学历者对小道消息的利用比例最高这是此题的考点。因为相关分析局限在两个变量之间，缺少控制变量，比拟容易产

3、生错误的结论。这道题的目的就在于引发同学们对统计上的结果的审视26.18%。但是，这种现象也有可能是由于教育水平高的人更多地了解时事政治所致，因此，需要进一步地分析教育水平与了解时事政治之间关系，方能得出更准确的结论。3、假设我们得到一个抽样调查数据，从下面这段信息中，你发现了什么？两个变量分别为：“受教育水平和“在生活目标中，个人富有的重要性程度n=978; Pearson Chi-Square= Sig=0.000; Kendalls tau-b=-.020 Sig=0.473根据上表，我们发现个人富有在生活目标中的重要性因受教育水平不同而有显著的差异这里要用差异这个词，因为卡方检验就是答

4、复频数是否有差异的Chi-Square= , 但是二者的相关强度并不显著Kend，p=。从百分比上看，有%有的同学在这里解读的是个人富有重要的人群中，教育水平是什么样子的，这是不对的。因为这一行的百分比会与教育水平在人群中的自然分布有关系。的具有小学及以下学历的居民认为个人富有非常重要，%的居民认为其非常重要，但是在具有大学学历的居民中，有40.1%的人认为个人富有还是比拟重要的。这一类人群中，保持中立态度的比例26.9%也比其他学历人群的高。总的来说，在各学历人群中，认为个人富有非常不重要的比例都不及5%，都有约60-65%的人都是认为个人富有比拟重要或者非常重要。4、假设我们得到一个抽样调

5、查数据,样本量为3988个，从下面这段信息中，你发现了什么？请进行描述和分析。图6-18 不同年龄组人群在基层自治组织选举中的投票率%(Chi-Square= 130.1046, P 001图6-18描述了不同年龄组人群之间在投票率上的显著差异Chi-Square= 130.1046,P 001，我们发现，40-49岁年龄组人群的投票率最高，为81.02%；然后是50-59岁年龄组、30-39岁年龄组、60岁以上年龄组，其投票率分别为78.24%、77.12%和76.91%，这几组人群的投票率没有多少差异；而18-29岁年龄组在村/居委会和社区选举中投票率最低，刚刚到达一半。这说明，中年人群在

6、基层自治组织选举中最积极投票，而老龄人口可能由于能力所限而投票率较低，年轻人群投票率最低。5、假设我们得到一个抽样调查数据,样本量为3988个，从下面这段信息中，你发现了什么？请进行描述和分析。表6-17 人们日常生活中与其他人谈论政治话题的方式%样本比例比例参数估计标准误95%置信区间proportionEstimateStd. Error95% Conf. Interval打写信面谈发电子邮件/互联网发QQ/MSN/ 短信等即时消息其他表6-17这道题考察是否会解读参数估计那一列而不是样本比例那一列，样本的目的是为了估计总体的，因此解读参数估计中的数据方为正确，另外看学生是否会解读置信区

7、间，是属于对参数估计那一讲的复习列举了人们通过不同方式与其他人谈论政治话题的根本情况。我们发现，面谈，作为传统的政治沟通渠道，仍然是中国人进行政治交流的最主要方式，87.65%的人通过与他人面谈交流政治信息和意见，其95%的置信区间为84.86%，90.00%；作为通讯技术在政治沟通领域的反响，打与他人谈论政治话题所占比例仅为13.77%，在95%的置信水平下，最高能到达16.30%，最低为11.58%；通过QQ/MSN/ 短信等即时信息和发电子邮件、互联网谈论政治话题在中国公众中尚不普遍，只有7.55%；写信是中国公民之间谈论政治话题利用最低的沟通渠道，仅有0.68%的人们曾经写信与其他人

8、谈论政治话题。6、对不同地区各抽出假设干村居进行调查，然后分析地区之间的村居收入差异，得到方差分析表如下：SourceSSdfMSSFSig.Between Groups3402略略Within Groups71421Total105423问：（1）该方差分析中的测试变量Test variable是什么？村居收入（2）该方差分析所检验的假设是什么？不同地区的村居平均收入没有差异（3）方差分析中涉及了几个地区？ 3个地区（4）方差分析中涉及了多少个村居？ 24个村居这里容易犯错，有的会用21去加1，那是错的。23+1才是表达样本量的意思5显著度S17说明什么？在95%的置信水平下，不

9、同地区的村居收入均值有显著的差异。7、请根据“中的数据，选择2个你感兴趣的变量，做列联表分析，并说明你从数据分析结果中发现了什么。考察要点：（1）是否选择的是定类、定序变量（2）是否选了卡方检验（3）是否选对了列联强度系数（4）卡方检验的结果中，是否有20%的单元格期望频数小于5（5）列联表中是否出现了无答复这个选项（6）解释卡方检验的结果是否正确（7）解释列联强度系数是否正确（8）是否描述了百分比同学们容易出错的地方有两处：（1）选择了定距、定比变量（2）定类或定序变量的分类数过多，导致超过了20%的单元格的期望频数小于5，需要重新合并选项解读方法参照第3题，此处略去8、

10、请根据“中的数据，选择3-4个你感兴趣的变量，做一元多因素方差分析，要求：分别做饱和模型和非饱和模型，并说明你从数据分析结果中发现了什么。考察要点：（1）因变量是否选择的是定距定比，自变量是否为定类定序变量（2）是否有饱和模型（3）对饱和模型中各个变量的显著度是否做出了正确的判断（4）是否有非饱和模型（5）对非饱和模型中各个变量的显著度是否做出了正确的判断（6）对交互效应的解释是否正确（7）关键词是否在“均值差异，而不是“相关之类的词汇以下为作业8范本，可参考。注意老师的批注，是同学们做方差分析时的考前须知。摘自鲍星宇同学的作业，在此表示感谢。我选择的因变量为“2006年，您全年

11、的总收入是多少元，三个自变量分别为“教育水平、“受访人年龄,10岁为一组和“性别变量尺度正确，并且有现实上的意义，有的同学在选择因变量和解释因素的时候无视了现实意义。首先先做饱和模型从饱和模型出发是正确的，选择“教育水平这一自变量做Post Hoc，看不同教育水平的人在收入上的均值差距。用SPSS软件作一元多因素方差分析写明了所用的统计软件，是学术文章的要求，得到以下结果：表8-1 主体间因子值标签NEDU 教育水平1小学及以下1012初中2103高中/中专1774大专及以上243AGEGRP10 受访人年龄,10岁组118-29238230-39165340-49157450-5910456

12、0-7067gender 性别0女性3521男性379根据表8-1可知，三个自变量中每个分类的样本数都大于30如果出现了样本数小于30的选项，建议合并选项，可以作为合格样本进行分析。表8-2 主体间效应的检验因变量:k14 2006年，您全年的总收入是多少元源我会检查这一列是否为饱和模型，有的同学，虽然写饱和模型，但是会少工程III 型平方和df均方FSig.校正模型39.000截距1.000EDU3.000AGEGRP104.278gender1.002EDU * AGEGRP1012.158EDU * gender3.380AGEGRP10 * gender4.541.705EDU * A

13、GEGRP10 * gender12.417.957误差691总计731校正的总计730a. R 方 = .195调整 R 方 = .150根据表8-2，我们可以发现，在95%的置信水平下，不同教育水平、不同性别的人在总收入的平均值上有显著差异EDU: F=20.776,P0.05; gender: F=1.189E10, P0.05。而不同年龄组的人在总收入的平均值上那么没有显著差异F=1.519E9, P=0.278。但是，在95%的置信水平下，任意两个自变量的交互项与三个自变量的交互项均与总收入的均值没有显著关系EDU * AGEGRP10：F=1.404, p=0.158; EDU *

14、 gender: F=1.026,p=0.38; AGEGRP10 * gender: F=0.541,p=0.705; EDU * AGEGRP10 * gender: F=0.417,p=0.957 。试举其中一例来说明：教育水平和年龄组的交互项与总收入均值没有显著关系，这意味着在控制了教育水平的情况下，不同年龄组的人在2006年的总收入均值没有显著差异，反之亦然。这里，向读者解释了交互项的含义由于表8-2中存在与因变量关系不显著的自变量，即“年龄组这个自变量。我们接下来采用不饱和模型。非饱和模型与饱和模型之间有合理的过渡。我们在做方差分析的时候，从饱和模型出发，如果出现了不显著的工程，需要去除，直到都显著为止。只要去除了某一项，就成为非饱和模型了。去掉“年龄组这个自变量后，再做一遍一元多因素方差分析，结果如下

展开阅读全文