科学方法是通向绝对知识或真理的唯一入口

上传人:桔**** 文档编号:568723213 上传时间:2024-07-26 格式:PPT 页数:97 大小:590KB
返回 下载 相关 举报
科学方法是通向绝对知识或真理的唯一入口_第1页
第1页 / 共97页
科学方法是通向绝对知识或真理的唯一入口_第2页
第2页 / 共97页
科学方法是通向绝对知识或真理的唯一入口_第3页
第3页 / 共97页
科学方法是通向绝对知识或真理的唯一入口_第4页
第4页 / 共97页
科学方法是通向绝对知识或真理的唯一入口_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《科学方法是通向绝对知识或真理的唯一入口》由会员分享,可在线阅读,更多相关《科学方法是通向绝对知识或真理的唯一入口(97页珍藏版)》请在金锄头文库上搜索。

1、 科学方法是通向绝对知识或真理的唯一入口科学方法是通向绝对知识或真理的唯一入口研究的本质研究的本质1研究的基础研究的基础 2NowNow:数据分析:数据分析 3研究方法研究方法4论文的撰写论文的撰写6研究计划及研究报告的准备研究计划及研究报告的准备5描述统计推断统计一、新旧知识的联系一、新旧知识的联系研究课题研究课题程序程序/设计设计假设或问题假设或问题样本样本工具工具定义定义文献综述文献综述数据分析数据分析二、数据分析的宏观概念图?二、数据分析的宏观概念图?1 1 收集数据收集数据2描述统计描述统计3推断统计推断统计 宏观概念图描述统计推断统计描述统计目录描述统计目录ONEONE1 1 描述

2、统计的实质描述统计的实质TWOTWO2 2 描述分布描述分布THREETHREE3 3 描述关系描述关系FOURFOUR4 4 线性关系线性关系一、什么是数据?一、什么是数据?数据是指由变量组成的个体的许多信息。变量指个体的特定属性。二、描述统计的实质二、描述统计的实质描述统计描述统计一个变量二个变量描述分布描述关系三、检验分布三、检验分布变量:类别变量和数值变量四、检验关系四、检验关系一些例子一些例子1.在某一标准化的测验中性别与得分的关系?2.婴儿睡眠时的光线类型与是否是近视有关系?3.我们能不能根据新生的SAT的得分预测他的GPA?4.考驾照时的练习时间和是否能通过之间有没有关系?2类别

3、变量类别变量数字变量数字变量CaseCase五、描述统计宏观图五、描述统计宏观图描述分布描述关系1CaseCaseCaseCase描述统计目录描述统计目录ONEONE1 1 描述统计的实质描述统计的实质TWOTWO2 2 描述分布描述分布THREETHREE3 3 描述关系描述关系FOURFOUR4 4 线性关系线性关系一、类别变量一、类别变量你觉得你身材怎样?胖、瘦还是刚好?你觉得你身材怎样?胖、瘦还是刚好?StudentBodyImagestudent 25overweightstudent 26about rightstudent 27underweightstudent 28about

4、 rightstudent 29about right随机调查了1200大学生,下表显示了一部分回答。BodyImageDistributionCategoryCountpercentabout right855855/1200*100=71.3%overweight235235/1200*100=19.6%underweight110110/1200*100=9.2%TotalN=1200100%1.饼形图饼形图2.直条图直条图小结:类别变量的分布小结:类别变量的分布计算类别变量的个数和百分比;同时用饼图或直条图进行图形化的显示。活动活动1:利用:利用excel绘制饼图或直条图绘制饼图或直条

5、图在这个活动中:l会用excel计算次数和百分比l知道怎样用excel生成饼图你发现和谁最容易交朋友?你发现和谁最容易交朋友?(异性、同性、没差别)(异性、同性、没差别)原数据:原数据:friends1具体步骤:1 选中需要处理的变量2 选择“数据-数据透视表和数据透视图”3 点击完成,此时你看到一张新的空表.4选中。二、数字变量二、数字变量统计图与统计表:直方图、茎叶图描述统计的特征量:集中量数、差异量数对于数字变量:我们可以先用直方图或茎叶图描述;然后对其进行数字化测量。(一)直方图的思想:求出组距,然后计算次数(一)直方图的思想:求出组距,然后计算次数88, 48, 60, 51, 57

6、;85, 69, 75, 97, 72;71, 79, 65, 63, 73.例子:考试分数例子:考试分数直方图直方图组距:40-50,50-60 90-100ScoreCount40-50)150-60)260-70)470-80)580-90)290-1001如何说明直方图?如何说明直方图?我们的例子:我们的例子:分数基本对称,分数基本对称,70作为分布的中心点,最小作为分布的中心点,最小值大约值大约45、最大值大约、最大值大约95、全距大约为、全距大约为50小结:直方图是小结:直方图是用于描述数值变量的图形;当检验数值变量的分布时,我们应该描述这个图形的形状、集中趋势、离散趋势课后思考题

7、:课后思考题:如何利用如何利用excel绘制直方图绘制直方图利用奥斯卡得主的年龄为例,说明怎样利用奥斯卡得主的年龄为例,说明怎样用用excel生成直方图,源数据可用生成直方图,源数据可用actor2(二)茎叶图的思想:把数据分成茎和叶(二)茎叶图的思想:把数据分成茎和叶叶:最右边的数字;茎:其他的数字叶:最右边的数字;茎:其他的数字例子:最佳女奥斯卡获得者34 34 26 37 42 41 35 31 41 33 30 74 33 49 38 61 21 41 26 80 43 29 33 35 45 49 39 34 26 25 35 33 小结:茎叶图是小结:茎叶图是对小的数据集简单快速的

8、描述;能保留原数据;对数据进行排序。(三)(三)集中趋势度量参数集中趋势度量参数及其计算及其计算众数(Mode)平均数(Mean)中位数(Median)1 1 众数众数 众数:指次数分布中出现次数最多的那个数的数值,又称范数,常用符号M0表示。 例1:1,2,2,3,3,4 例2:1,2,3,4,5 例3:12,12,56,78,90 例:2,4,6,8,102算术平均数算术平均数平均数=6 下表是17名中学教师的月收入:1200, 1270, 1300, 1310, 1320, 1350, 1360, 1370, 1390, 1400, 1450, 1460, 1530, 1580, 160

9、0, 3200, 4000 现欲了解他们的平均月收入。平均数=1652.33 3 中数中数 中数:是指一组按大小顺序排列起来的量数的中间点的数,又称中位数,符号记为Mdn。 下表是17名中学教师的月收入:1200, 1270, 1300, 1310, 1320, 1350, 1360, 1370, 1390, 1400, 1450, 1460, 1530, 1580, 1600, 3200, 4000 现欲了解他们的平均月收入。平均数=1652.3中数=1390那么这则数据的中位数呢?那么这则数据的中位数呢?3、小结:集中量数小结:集中量数三个代表三个代表在实际中最常用的就是平均数在实际中最常

10、用的就是平均数分布:19, 20, 25, 32, 39分布: 2, 3, 25, 30, 75这两个分布的平均数都是27,中数都是25。集中量数出现的问题集中量数出现的问题(四)差异量数及其计算(四)差异量数及其计算 差异量数:是表示量数之间的差异程序的一些统计量的总称,它是用于表示一群量数的离散情况或离中趋势。 常用的差异量数:方差(Variance)标准差(Std. deviation)标准分数(分数)最大值(Maximum)、最小值(Minimum)等(1)样本方差与标准差样本方差与标准差样本方差:样本标准差:n-1n-1例:分布:19, 20, 25, 32, 39分布:2, 3,

11、25, 30, 75求标准差只有知道了差异量数的大小,才能了解集中量只有知道了差异量数的大小,才能了解集中量数的代表性如何。数的代表性如何。差异量数越大,集中量数的代表性越小;差异量数越大,集中量数的代表性越小;差异量数越小,集中量数的代表性越大。差异量数越小,集中量数的代表性越大。2标准分数标准分数标准分数,又称分数。是以标准差为单位表示一个分数在团体分数中所处的位置。试分析在班里他们三人中谁的总成绩最好。试分析在班里他们三人中谁的总成绩最好。活动活动2.利用利用excel计算统计量计算统计量目标:1. 学习利用excel计算统计量,并进行统计描述2. 用五个变量进行分布描述。盒子图常用的统

12、计量盒子图常用的统计量最小值Q1值中位数平均数Q3值最大值标准差步骤:步骤:在列A以外的任何一个单元格中键入min,然后在右边一格中键入=min(A2:A33)。在min单元格下面键入Q1,然后在右边一格中键入=quartile(A2:A33,1)。在Q1单元格下面键入Median,然后在右边一格中键入=median(A2:A33)。在Median单元格下面键入Mean,然后在右边一格中键入=average(A2:A33)。在Mean单元格下面键入Q3,然后在右边一格中键入=quartile(A2:A33,3)。在Q3单元格下面键入Max,然后在右边一格中键入=max(A2:A33)。问题:问

13、题: 输出结果中有多少个观测值?奥斯卡得主的平均年龄?这五个量的值分别是多少? 奥斯卡获得者有一半的年龄是多少?全距是多少?四分位差是多少?盒子图盒子图描述统计目录描述统计目录ONEONE1 1 描述统计的实质描述统计的实质TWOTWO2 2 描述分布描述分布THREETHREE3 3 描述关系描述关系FOURFOUR4 4 线性关系线性关系两个变量之间的关系分类两个变量之间的关系分类CaseI:自变量是类别的,因变量是数值的自变量是类别的,因变量是数值的例子:热狗例子:热狗 很关心自己健康的人更愿意选择低卡路里的热狗。于是健康协会做了一项调查,检查54种品牌的热狗,根据原材料的类型(牛肉、家

14、禽、猪肉)进行分类并测其卡路里值。研究的目的是为了检验热狗的卡路里值和其类型是不是有关。我们先计算各统计量,然后用盒子图来呈现我们先计算各统计量,然后用盒子图来呈现解释我们的结果解释我们的结果1.家禽类的热狗比牛肉和猪肉的热狗卡路里更低;2.家禽类的热狗的卡路里的中位值比其他两个低,甚至低于其他两个的Q1值;3.这三种类型的热狗分布是一样的。结论:结论: 总体而言,我们推荐消费者吃家禽类的热狗,但要知道,因为每种类型的热狗,由于品牌不同,卡路里的差异是很大的,因此,吃家禽类的热狗并不能保证是低卡路里的食品。检验检验CaseI关系:本质是用盒子图对每种自关系:本质是用盒子图对每种自变量的类别进行

15、因变量的分布比较,再辅以变量的类别进行因变量的分布比较,再辅以统计量进行说明。统计量进行说明。小结:小结:CaseII:TwoCategoricalVariables例:美国大学生对自己身材的看法例:美国大学生对自己身材的看法男生和女生对自己身材看法是否存在差异?为了概述两个变量之间的关系,我们创建一个如为了概述两个变量之间的关系,我们创建一个如下图所示的二维表。下图所示的二维表。比较分布比较分布比较分布比较分布1.用两维表显示数据;用两维表显示数据;2.辅以百分比进行描述;辅以百分比进行描述;3.我们试图理解两个类别变量之间的关系时,我们试图理解两个类别变量之间的关系时,我们实质是比较每种类

16、别的反应变量的分布,我们实质是比较每种类别的反应变量的分布,尤其是比较反应变量值的百分比差异。尤其是比较反应变量值的百分比差异。小结:小结:检验两个类别变量的关系CaseIII:TwoQuantitativeVariables自变量是类别变量时,我们比较因变量的分布;自变量是类别变量时,我们比较因变量的分布;自变量是数字变量时,我们需要引入新的统计工具。自变量是数字变量时,我们需要引入新的统计工具。例:高速公路上的标志例:高速公路上的标志 宾夕法尼亚州一研究所进行了一项研究,对年龄从18到80岁的30名司机进行实验,调查他们能看清楚新标志的最长距离,目的是为了检验司机的年龄和他们能看清标志的最

17、长距离,且将研究发现用于提高老年司机的安全性问题。这些数据我们也可以转化成: (18,510), (32,410), (55,420),(23,510) . (82,360).检验两个数值变量的关系用碎石图(检验两个数值变量的关系用碎石图(scatterplot)碎石图大体离差趋势强度图式极端值+问题出来了:如何解释碎石图?我们该怎么读问题出来了:如何解释碎石图?我们该怎么读图?我们应该注意什么?图?我们应该注意什么?1.趋势(趋势(direction)2.图式(图式(form)a linear form a curvilinear form Clusters form 3.强度(强度(str

18、ength)4.极端值(极端值(outliers)我们的例子我们的例子趋势是递减的;线性的;强度较强;没有极端值。小结:两个数值型变量之间的关系小结:两个数值型变量之间的关系 用碎石图进行显示,每个点代表每个个体,X轴表示自变量,Y轴代表因变量; 我们可以看散点图的大体情况和偏离,具体来说,就是看它的趋势、图式、强度和极端值。描述统计目录描述统计目录ONEONE1 1 描述统计的实质描述统计的实质TWOTWO2 2 描述分布描述分布THREETHREE3 3 描述关系描述关系FOURFOUR4 4 线性关系线性关系一、相关系数一、相关系数r相关系数相关系数r是两变量间相关程度的是两变量间相关程

19、度的量化指标,用于测量两个数值变量量化指标,用于测量两个数值变量之间变化的趋势和密切程度。之间变化的趋势和密切程度。例例1:高速公路上的标志:高速公路上的标志解释:解释:r为负数,说明两个变量关系是负的;r相对来说比较接近1,说明是强相关;结论:结论:能看清标志的最远距离会随着年龄递减;从r值我们可以预测,相同年龄的司机能看清标志的最远距离有所变化。例例2:课程的一项统计数据:课程的一项统计数据说明:说明: r取值范围介于-1至+1之间,常用小数表示,正负号表示相关方向,绝对值的大小表示相关的程度; 特别地,当相关系数为0时,称0相关,表示两变量之间无任何线性关系;相关系数为1时,表示两变量间

20、存在完全正相关;相关系数为-1时,表示两变量之间存在完全负相关; 完全正负相关的两变量的取值存在一一对应的函数关系。r特性特性相关系数不随着变量的测量单位的改变而改变相关系数不随着变量的测量单位的改变而改变它仅仅是一个数字,不能用百分比来解释它仅仅是一个数字,不能用百分比来解释r特性特性r只能代表线性关系只能代表线性关系的强度的强度,测量不出测量不出其他模式的程度,其他模式的程度,不管它有多强。不管它有多强。r接接近近0的意思是没有的意思是没有线性关系线性关系.r特性特性r的大小不能说明的大小不能说明它是不是线性关系。它是不是线性关系。一切得看数据。一切得看数据。二、线性回归:从一个例子开始二

21、、线性回归:从一个例子开始 前面,我们已经知道了司机年龄和看清新标志需要的最远距离,假定政府机构想预测60岁的司机能看到的最远距离,怎么办?技术上而言,这就叫线性回归。技术上而言,这就叫线性回归。我们可以预测,最远距离不会超过我们可以预测,最远距离不会超过400400英尺。英尺。如何选择一条最适合的线?如何选择一条最适合的线?选择准则:最小平方选择准则:最小平方最小平方回归线最小平方回归线-函数式函数式 例:年龄例:年龄距离距离Y=a+bXb=r(SY/SX)a=YbX最小平方回归线最小平方回归线-函数式函数式例子的回归线例子的回归线60岁所能看到的最远距离是岁所能看到的最远距离是396英尺。英尺。假定研究机构对假定研究机构对90岁的司机所能看到的最远距岁的司机所能看到的最远距离也很感兴趣,请你预测!离也很感兴趣,请你预测!讨论:结果可靠吗?讨论:结果可靠吗?步骤步骤1 首先我们需要定义间距。在这个例子中,最小值为31,最大值76,因此我们间距定5,从30-80.在数据的附近的任何一列,输入这些数据:30、35、40 80;2 选择“工具-数据分析”命令,在下拉列表中选择直方图,点击确定;3在接下来的窗口中,在输入区域中选择你的原始数据;在接受区域中选择包含了间距的数据;最后用图表输出,点击确定。4 右击选择格式数据序列,在选项中将间距设置为0.描述分布描述分布

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号