《《医学统计学》教学课件-绪论》由会员分享,可在线阅读,更多相关《《医学统计学》教学课件-绪论(101页珍藏版)》请在金锄头文库上搜索。
1、预防教研室预防教研室 黄品贤黄品贤http:/http:/学习目的学习目的明确医学统计学的基本概念、基本思想、主要内明确医学统计学的基本概念、基本思想、主要内容、特点与作用,激发学习兴趣,树立学好医学容、特点与作用,激发学习兴趣,树立学好医学统计学的信心。统计学的信心。学习要点学习要点医学统计学的概念,同质与变异、总体与样本、医学统计学的概念,同质与变异、总体与样本、参数与统计量、抽样研究与抽样误差、小概率事参数与统计量、抽样研究与抽样误差、小概率事件等基本概念,资料类型,统计工作的基本步骤。件等基本概念,资料类型,统计工作的基本步骤。 北京某医院某医生使用北京某医院某医生使用乌贝散治散治疗胃
2、胃溃疡出血出血107107例,例,101101例有效,有效率例有效,有效率为94.494.4。那么其它医生使。那么其它医生使用用该药,有效率会是多少呢?,有效率会是多少呢?案例案例1医学研究中有关统计学的常见问题医学研究中有关统计学的常见问题(90.0490.0498.7698.76) 随机抽取随机抽取50505959岁男性正常人、糖尿病患者各男性正常人、糖尿病患者各1 11 1人,人,测定其血定其血浆胆固醇含量分胆固醇含量分别为3.203.200.70 0.70 ( (mmol/L) mmol/L) 、5.355.351.19(mmol/L) 1.19(mmol/L) ,问两两组人的血人的血
3、浆胆固醇有无差胆固醇有无差别?为什么?什么?案例案例2t t5.136 p0.015.136 p0.01P=0.061案例案例3表表1 1 冠心冠心灵与单纯灵与单纯西西药疗药疗效效对对比比组别组别显显效效有效有效无效无效合合计计单纯单纯西西药药9 925256 64040冠心冠心灵灵191918185 54242问:甲校高血压预防工作不如乙校吗?问:甲校高血压预防工作不如乙校吗?案例4问:流脑的预防工作问:流脑的预防工作1990年不如年不如1985年吗?年吗?案例5 当人当人类科学家在探索科学家在探索问题的的丛林中遇到林中遇到难以逾越的障碍以逾越的障碍时,唯有,唯有统计学工具可以学工具可以为其
4、开辟一条前其开辟一条前进的通道。的通道。 法法兰西斯西斯. .高而高而顿国内著名的经济学家、人口学家马寅初:国内著名的经济学家、人口学家马寅初: 学者不能离开统计学而研学;学者不能离开统计学而研学; 政治家不能离开统计学而施政;政治家不能离开统计学而施政; 事业家不能离开统计学而执业;事业家不能离开统计学而执业; 军事家不能离开统计学而谋略。军事家不能离开统计学而谋略。 “医学统计学是国内外临床医学专业的一门医学统计学是国内外临床医学专业的一门重要的基础学科,是重要的基础学科,是2121世纪临床医生在从事世纪临床医生在从事临床工作和科学研究过程中必须掌握和了解临床工作和科学研究过程中必须掌握和
5、了解的基本知识的基本知识,统计学方法被医学界比喻为整个医学大厦中统计学方法被医学界比喻为整个医学大厦中的支柱的支柱”。学习方法:学习方法:理解课堂讲授内容理解课堂讲授内容通过课后练习题加以巩固通过课后练习题加以巩固通过实际工作中文献资料的阅读、统计方法的通过实际工作中文献资料的阅读、统计方法的运用进一步理解医学统计学的精髓。运用进一步理解医学统计学的精髓。成绩评定:成绩评定:平时成绩:平时成绩:2020 (考勤、作业)(考勤、作业) 考试成绩:考试成绩:8080 (上机考试)(上机考试)14参参考考书:1.1.申杰主编申杰主编. . 中医统计学(第二版)中医统计学(第二版). .科学出版社,科
6、学出版社,201220122.马斌荣主编医学统计学人民卫生出版社,20063.颜虹主编医学统计学人民卫生出版社,20064.张文彤主编SPSS统计分析基础教程高等教育出版社,20045.张文彤主编SPSS统计分析高级教程高等教育出版社,20046.方积乾主编医学统计学与电脑实验上海科学技术出版社, 200115医学统计学主要讲授内容医学统计学主要讲授内容第一章第一章 绪论绪论 第二章第二章 计量资料的统计描述计量资料的统计描述第三章第三章 总体均数的估计与假设检验总体均数的估计与假设检验第四章第四章 t t 检验检验第五章第五章 方差分析方差分析第六章第六章 相关与回归相关与回归第七章第七章
7、计数资料的统计描述计数资料的统计描述第八章第八章 计数资料的统计推断计数资料的统计推断 第九章第九章 非参数检验非参数检验第十章第十章 圆形分布资料的分析圆形分布资料的分析第十一章第十一章 统计表与统计图统计表与统计图第十二章第十二章 医学研究设计基础医学研究设计基础第一章第一章 绪论绪论 第一节第一节 概述概述第二节第二节 统计学的几个基本概念统计学的几个基本概念第三节第三节 资料类型资料类型第四节第四节 医学统计工作的基本步骤医学统计工作的基本步骤 第五节第五节 医学统计学的作用与学习方法医学统计学的作用与学习方法第一节第一节 概述概述 StatisticsStatistics:“a sc
8、ience dealing with the a science dealing with the collection, analysis, interpretation and collection, analysis, interpretation and presentation of masses of numerical datapresentation of masses of numerical data” -Webster -Webster 国际大辞典国际大辞典 统计学是对令人困惑费解的数字问题做出设统计学是对令人困惑费解的数字问题做出设想的艺术。想的艺术。 - -David
9、 FreedmanDavid Freedman一、医学统计学的概念一、医学统计学的概念统计学统计学(statistics)(statistics)是研究随机现象数量规律性的是研究随机现象数量规律性的应用数学,是从随机现象数据中提取信息、知识的应用数学,是从随机现象数据中提取信息、知识的一门科学与艺术,是一门方法性学科。它分为理论一门科学与艺术,是一门方法性学科。它分为理论统计学和应用统计学两大类。统计学和应用统计学两大类。理论统计学理论统计学(theoretical statistics) (theoretical statistics) 应用统计学应用统计学(applied statisti
10、cs)(applied statistics)一、医学统计学的概念一、医学统计学的概念 理论统计学理论统计学(theoretical statistics)(theoretical statistics) 即数理统计学即数理统计学(mathematical (mathematical statistics)statistics)是以概率论为基础,从纯理论的角是以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心的内容是统度,对统计方法加以推导论证,中心的内容是统计推断问题,实质是以归纳方法研究随机现象的计推断问题,实质是以归纳方法研究随机现象的一般规律。一般规律。一、医学统计学的概念一
11、、医学统计学的概念应用统计学应用统计学(applied (applied statistics)statistics)是数理统计学的原理方法在不同学科是数理统计学的原理方法在不同学科领域的具体应用。领域的具体应用。 如:数理统计学在生物学中的应用形成了如:数理统计学在生物学中的应用形成了生物统计生物统计学学(biostatistics)(biostatistics);在医学中的应用形成;在医学中的应用形成医学统医学统计学计学(medical statistics)medical statistics)、卫生统计学卫生统计学(health (health statistics)statistic
12、s)和和中医药统计学中医药统计学(statistics for (statistics for traditional chinese medicine)traditional chinese medicine)等。等。医学统计学医学统计学是研究医学领域中随机现象客观规律的是研究医学领域中随机现象客观规律的一门方法性学科,它运用数理统计学的基本原理与一门方法性学科,它运用数理统计学的基本原理与方法,结合医学实际,阐述医学领域研究设计、收方法,结合医学实际,阐述医学领域研究设计、收集资料、整理资料、分析资料、结果报告与结论表集资料、整理资料、分析资料、结果报告与结论表达。达。 它属于应用统计学,
13、是医学科学研究的重要工具与它属于应用统计学,是医学科学研究的重要工具与手段。手段。一、医学统计学的概念一、医学统计学的概念二、统计学的发展简史二、统计学的发展简史人类由统计实践上升到统计学,却只有人类由统计实践上升到统计学,却只有300300多年的历史多年的历史1717世纪中叶至世纪中叶至1818世纪初期为古典统计学的发展时期世纪初期为古典统计学的发展时期1818世纪后叶至世纪后叶至2020世纪初期为近代统计学的发展时期世纪初期为近代统计学的发展时期2020世纪初期至今为现代统计学的发展时期世纪初期至今为现代统计学的发展时期二、统计学的发展简史二、统计学的发展简史现代统计学的发展趋势:现代统计
14、学的发展趋势:随着数学的发展,统计学依赖和吸收的数学方法越来越多;随着数学的发展,统计学依赖和吸收的数学方法越来越多;统计方法与计算机技术相结合,已渗透到了所有学科部门,统计方法与计算机技术相结合,已渗透到了所有学科部门,以统计学为基础的边缘学科不断形成;以统计学为基础的边缘学科不断形成;统计与实质性学科、统计软件、现代信息相结合,所发挥的统计与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强;功效日益增强;统计学的作用与功能已从描述事物现状、反映事物规律,向统计学的作用与功能已从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展,已成为具有方法论性质抽样推断、预测未来变化
15、方向发展,已成为具有方法论性质的综合性学科。的综合性学科。三、统计学的研究对象三、统计学的研究对象 具有变异的事物具有变异的事物(现象),(现象),其变异为同质其变异为同质基础上的变异。基础上的变异。三、统计学的研究对象三、统计学的研究对象 同质(同质(homogeneityhomogeneity)指观察单位间被研究指标的)指观察单位间被研究指标的影响因素相同。影响因素相同。 由于被研究指标的影响因素往往难以完全控制,甚由于被研究指标的影响因素往往难以完全控制,甚至未知,因此在实际工作中观察单位的同质是指对至未知,因此在实际工作中观察单位的同质是指对被研究指标的影响较大的、可以控制的主要因素相
16、被研究指标的影响较大的、可以控制的主要因素相同或基本相同。同或基本相同。三、统计学的研究对象三、统计学的研究对象 同质(同质(homogeneityhomogeneity)指观察单位间被研究指标的影)指观察单位间被研究指标的影响因素相同。响因素相同。 如研究某地区儿童的身高,则要求影响身高这一指标如研究某地区儿童的身高,则要求影响身高这一指标的主要因素(如年龄、性别、民族)要相同,而不能的主要因素(如年龄、性别、民族)要相同,而不能控制的因素(遗传、营养等)可不要求相同。控制的因素(遗传、营养等)可不要求相同。 同质是相对的,对于身高指标,成年男女有别不同质同质是相对的,对于身高指标,成年男女
17、有别不同质;而对于脉搏指标,成年男女无别同质。;而对于脉搏指标,成年男女无别同质。三、统计学的研究对象三、统计学的研究对象变异(变异(variationvariation)指在同质基础上各观察单位间某观察指标)指在同质基础上各观察单位间某观察指标的差异。的差异。 医学研究,在同类的对象中往往存在着变异,如同为健康人医学研究,在同类的对象中往往存在着变异,如同为健康人,即使是性别与年龄相同,他们的身高、体重、脉搏、血压、,即使是性别与年龄相同,他们的身高、体重、脉搏、血压、体温、肺活量等生理生化指标数值都会有所不同;同为某病体温、肺活量等生理生化指标数值都会有所不同;同为某病的病人,其病情病程也
18、各自有所差异;对病情相同的患者用的病人,其病情病程也各自有所差异;对病情相同的患者用同一种疗法治疗,同一种疗法治疗,有治愈有治愈、显效显效、无效无效等不同转归。等不同转归。三、统计学的研究对象三、统计学的研究对象医学事物(现象)大多数是具有变异的事物(现象),概率论医学事物(现象)大多数是具有变异的事物(现象),概率论称具有变异的事物(现象)为随机事件。称具有变异的事物(现象)为随机事件。 随机事件随机事件是指一次试验结果不确定而在一定数量重复条件下呈是指一次试验结果不确定而在一定数量重复条件下呈现出某种规律性的事件。现出某种规律性的事件。 医学统计学可将医学随机事件通过一定数量的观察、对比、
19、分医学统计学可将医学随机事件通过一定数量的观察、对比、分析与推断,由偶然性(不确定性)现象的剖析,发现事物内在析与推断,由偶然性(不确定性)现象的剖析,发现事物内在的必然性(确定性)规律。的必然性(确定性)规律。 统计学是处理变异数据的科学,没有变异就无需统计学。统计学是处理变异数据的科学,没有变异就无需统计学。四、医学统计学的主要内容四、医学统计学的主要内容1.1.研究设计研究设计(research (research design)design):是按照研究目的和统计学要求制定具有针对性、具体:是按照研究目的和统计学要求制定具有针对性、具体性、专业性的工作方案。性、专业性的工作方案。 专业
20、设计专业设计(specialized (specialized design)design):用什么方式、方法等内容验证假说或回答有关的专业问题。用什么方式、方法等内容验证假说或回答有关的专业问题。 统计学设计统计学设计(statistical (statistical design)design):如何合理地安排实验内容,对实验结果如何进行有效地分析。如何合理地安排实验内容,对实验结果如何进行有效地分析。2.2.统计描述统计描述(statistical description)(statistical description):用统计指标、统计图、统计表等方法描述样本资料的数据特征及其分布规
21、:用统计指标、统计图、统计表等方法描述样本资料的数据特征及其分布规律。律。3.3.统计推断统计推断(statistical inference)(statistical inference) :有两个重要领域:有两个重要领域: 参数估计参数估计(estimation of parameter)(estimation of parameter):以样本指标推断总体参数范围以样本指标推断总体参数范围 假设检验假设检验(hypothesis (hypothesis testing)testing):利用样本信息,根据一定的概率水准,推断指标间的差别有无统利用样本信息,根据一定的概率水准,推断指标间的
22、差别有无统计学意义计学意义五、五、统计学统计学的特点和基本思想的特点和基本思想统计学认识事物现象有数量性、群体性、具体性和概率性等特点。统计学认识事物现象有数量性、群体性、具体性和概率性等特点。数量性:数量性:从客观事物数量特征和数量关系入手反映其质量,经过分析研究,从客观事物数量特征和数量关系入手反映其质量,经过分析研究,探索客观现象的本质和规律。如通过体格检查探索客观现象的本质和规律。如通过体格检查(测量血压、脉搏等测量血压、脉搏等)了解个体了解个体健康质量。健康质量。群体性:群体性:从整体上反映和分析事物数量特征。例如,以治疗足够数量的肺癌从整体上反映和分析事物数量特征。例如,以治疗足够
23、数量的肺癌患者疗效情况数据为前提来归纳推断反映其整体的疗效水平。患者疗效情况数据为前提来归纳推断反映其整体的疗效水平。具体性:具体性:通过研究在一定时间、地点、条件下的客观现象具体的数量特征来通过研究在一定时间、地点、条件下的客观现象具体的数量特征来反映抽象的数量关系。如以某一时间、地点、条件下的病死率、生存率评价反映抽象的数量关系。如以某一时间、地点、条件下的病死率、生存率评价医疗质量。医疗质量。概率性:概率性:采用随机抽样研究,用样本的特征指标估计或推测总体的特征指标采用随机抽样研究,用样本的特征指标估计或推测总体的特征指标,估计正确与否是以概率大小来确定的,所以统计学结论具有概率性。,估
24、计正确与否是以概率大小来确定的,所以统计学结论具有概率性。五、五、统计学统计学的特点和基本思想的特点和基本思想 统计学的基本思想可归纳为变异的思想、随机抽样研究的思统计学的基本思想可归纳为变异的思想、随机抽样研究的思想和概率的思想。想和概率的思想。 正是由于客观事物的变异性和复杂性才需要统计学;随机抽正是由于客观事物的变异性和复杂性才需要统计学;随机抽样研究可通过研究样本特征估计或推测总体特征,但是,为样研究可通过研究样本特征估计或推测总体特征,但是,为了得出正确的结论,在随机抽样时必须有效地控制各种误差了得出正确的结论,在随机抽样时必须有效地控制各种误差;由于统计学主要采用抽样研究方法探求总
25、体的规律性,所;由于统计学主要采用抽样研究方法探求总体的规律性,所以统计结论具有概率性,统计结论中没有以统计结论具有概率性,统计结论中没有“证明证明”,只有在,只有在一定概率水平上的推论。一定概率水平上的推论。第二节第二节 统计学的几个基本概念统计学的几个基本概念1.1.总体与样本总体与样本2.2.参数和统计量参数和统计量3.3.误差及其分类误差及其分类4.4.频率与概率频率与概率5 5. .随机、随机变量及变量值随机、随机变量及变量值6 6. .随机抽样随机抽样总体:总体:根据研究目的确定的根据研究目的确定的同质同质研究对象的全体。更确切地说研究对象的全体。更确切地说,是同质的所有观察单位某
26、种观察值的集合。用,是同质的所有观察单位某种观察值的集合。用 N N 来表示。来表示。 有限总体和无限总体有限总体和无限总体样本:样本:从总体中从总体中随机随机抽取的部分观察单位,其实测值的集合。抽取的部分观察单位,其实测值的集合。总体中有总体中有代表性代表性的一部分。用的一部分。用 n n 来表示。来表示。观察单位(个体):观察单位(个体):最基本的研究单位最基本的研究单位样本量(样本量(sample sizesample size):样本中所包含的观察单位数样本中所包含的观察单位数1.1.总体与样本总体与样本( (population and sample)population and s
27、ample)研究研究目的目的总体总体上海上海20201111年全体正常年全体正常8 8岁男岁男童身高值童身高值观测观测单位单位每个正常每个正常8 8岁男童岁男童观测值观测值正常正常8 8岁男童身高值岁男童身高值了解上海了解上海20201111年全体正年全体正常常8 8岁男童身高情况岁男童身高情况 样本样本从上海从上海20201111年全体正常年全体正常8 8岁男童岁男童中随机抽取中随机抽取10001000人测得的身高值人测得的身高值参参数数(parameterparameter):根根据据总总体体的的分分布布特特征征而而计计算算的的总总体体的的统统计计指指标标。如如总总体体均均数数、 总总 体
28、体 标标 准准 差差、 总总 体体 率率等等 。 固定的常数,但一般未知。固定的常数,但一般未知。 例:上海例:上海2002008 8年全体正常年全体正常8 8岁男童身高值的平均数岁男童身高值的平均数统计量(统计量(statisticsstatistics):):根据样本的分布特征而计算的样本的统计指标。如样本均数根据样本的分布特征而计算的样本的统计指标。如样本均数x x 、样本标准差、样本标准差s s、样本率、样本率p p。 在参数附近随机波动在参数附近随机波动 例:例:随机抽取的随机抽取的10001000男童测得的身高值的平均数男童测得的身高值的平均数2 2. .参数和统计量参数和统计量(
29、Parameter and (Parameter and statistics)statistics)3 3. .误差(误差(errorerror)误差误差随机误差随机误差非随机误差非随机误差随机测量误差随机测量误差抽样误差抽样误差系统误差系统误差非系统误差或过失误差非系统误差或过失误差误差:误差:泛指测量值与真值之差。泛指测量值与真值之差。( (1)1)抽样误差:抽样误差:由于抽样所引起的样本统计量与总体参数之间的差由于抽样所引起的样本统计量与总体参数之间的差异称为抽样误差。有一定的规律性,但不可避免。异称为抽样误差。有一定的规律性,但不可避免。 误差变量一般服从正态分布,可通过统计处理估计
30、随机误差。误差变量一般服从正态分布,可通过统计处理估计随机误差。( (2)2)随机测量误差:随机测量误差:由于一些非人为的偶然因素使得结果或大或小由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。如测量一个人身高:,是不确定、不可预知的。如测量一个人身高:178.12 178.09 178.12 178.09 178.15178.15cmcm。不可避免。不可避免。 误差变量一般服从正态分布,可通过统计处理估计随机误差。误差变量一般服从正态分布,可通过统计处理估计随机误差。( (3)3)系统误差:系统误差:数据搜集和测量过程中由于仪器不准确、标准不规数据搜集和测量过程中由于仪器不准
31、确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。系统误差。 误差变量有方向性,规律性和周期性。可以避免。误差变量有方向性,规律性和周期性。可以避免。( (4)4)过失误差:粗心大意过失误差:粗心大意 误差变量无方向性,无规律性。可以避免。误差变量无方向性,无规律性。可以避免。 实验者实验者 BuffonBuffon(法)法)k.pearsonk.pearson(英)英)k.pearsonk.pearson(英)英)投掷次数投掷次数 4040 4040 12000 12000 24000 24000“正面正面”
32、次数次数 2048 2048 6019 6019 12012 12012 频频 率率 0.5069 0.5069 0.5016 0.5016 0.5005 0.5005频率:频率:在相同条件下,独立地重复在相同条件下,独立地重复n n次试验,随机事件次试验,随机事件A A出出现现f f次,则称次,则称f/nf/n为随机事件为随机事件A A出现的频率。出现的频率。 例如投掷硬币,历史上有人对此做过实验得到如下结果:例如投掷硬币,历史上有人对此做过实验得到如下结果:4.4.概率和频率概率和频率 ( (probability and frequency)probability and frequen
33、cy)概率:概率:描述随机事件发生的可能性大小的度量,用大写的描述随机事件发生的可能性大小的度量,用大写的P P表表示;取值:示;取值:0 01 1之间。之间。 P P越接近于越接近于1 1,说明发生的可能性越大,越接近于,说明发生的可能性越大,越接近于0 0,说明发生,说明发生的可能性越小。的可能性越小。 小概率事件:通常一个事件的发生小概率事件:通常一个事件的发生P P 0.05 (5 0.05 (5)或或P P 0.010.01(1 1)称为小概率事件称为小概率事件( (习惯习惯) ),统计学上认为不大可能,统计学上认为不大可能发生。发生。 在实际工作中,当观察单位的例数足够多时,可以用
34、频率来代在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。替概率。频率是概率的估计值。5 5. .随机、随机变量及变量值随机、随机变量及变量值(variable and value of variable)(variable and value of variable)d随机随机(random)(random)指在抽样、分组、实验顺序安排过程中,每个指在抽样、分组、实验顺序安排过程中,每个观察单位都不受研究者的主观意愿驱使,具有同等的机会被观察单位都不受研究者的主观意愿驱使,具有同等的机会被抽中、分配或安排,目的是保证样本的代表性。抽中、分配或安排,目的是保证样
35、本的代表性。 d随机变量:随机变量:随机事件随机事件的的各种各种特征或指标称为变量。特征或指标称为变量。离散型变离散型变量、连续型变量。量、连续型变量。如人的性别、年龄、体重、身高等。如人的性别、年龄、体重、身高等。d变量值:变量值:对变量的测得值称为变量值或观察值,亦称为资料对变量的测得值称为变量值或观察值,亦称为资料 6 6. .抽样(抽样(samplingsampling)总体总体样本样本 抽取部分观察单位抽取部分观察单位 统计量统计量 参参 数数抽样应遵循的原则抽样应遵循的原则代表性:代表性:样本中每个个体符合总体的规定即同质的要求。样本中每个个体符合总体的规定即同质的要求。随机性:随
36、机性:随机性:总体中个体有相同的机会被抽取到样本中。随机性:总体中个体有相同的机会被抽取到样本中。可靠性:可靠性:结果可重复性。果可重复性。“足足够”的的样本量本量可比性:可比性:比比较的的组别之之间,除,除处理因素不同外,其他可能影响理因素不同外,其他可能影响结果的果的因素要求基本因素要求基本齐同,也称作同,也称作齐同同对比原比原则 。附表附表1717(1 1)随机数字表)随机数字表编号编号11011011201120213021301 12222171768686565818168689595232392923535878702022222575751512 219193636272759
37、59464613137979939337375555393977773232777709093 31616777723230202777709096161878725252121282806062424252593934 47878434376767171616120204444909032326464979767676363999961615 50303282828282626080873733737323204040505696930301616090905056 69393222253536464393907071010636376763535878703030404797988887
38、77878767658585454747492923838707096969292525206067979797945458 82323686835352626000099995353939361612828525270700505484834349 91515393925257070999993938686525277776565151533335959050528281010585871719696303024241818464623233434272785851010999924244444随机抽样的方法:随机抽样的方法:单纯随机抽样:单纯随机抽样:随机数字表和随机排列表随机数字表和随机
39、排列表机械抽样法:机械抽样法:又称等间隔抽样和系统抽样,按比例分配又称等间隔抽样和系统抽样,按比例分配分层抽样法:分层抽样法:先分层,每层内按比例抽样先分层,每层内按比例抽样整群抽样:整群抽样:随机数字:随机数字:随机数字表、软件产生随机数字随机数字表、软件产生随机数字1张训张训2吴明吴明3李娜李娜4王金华王金华5王大勇王大勇6龚向荣龚向荣7胡玉胡玉8和平和平9刘平刘平10黎明黎明11李小林李小林12李勇李勇13陈泳陈泳14向丽娜向丽娜15吕明海吕明海16吴大维吴大维17王菲王菲18窦唯窦唯19周润发周润发20张惠妹张惠妹21章子怡章子怡22刘玉文刘玉文23周结伦周结伦24韩红韩红25林忆莲林
40、忆莲26梅艳芳梅艳芳27刘嘉玲刘嘉玲28张曼玉张曼玉29张柏芝张柏芝30周迅周迅31巩俐巩俐32刘晓庆刘晓庆33瞿颖瞿颖34刘德华刘德华35刘青云刘青云36梁朝伟梁朝伟37杨家辉杨家辉38钟镇涛钟镇涛39刘松仁刘松仁40汤镇业汤镇业41汤镇宗汤镇宗42孙楠孙楠43张艺谋张艺谋44冯小刚冯小刚45雪村雪村46英打英打47赵本山赵本山48崔永元崔永元从从4848人中抽取人中抽取1010人人1张训张训2吴明吴明3李娜李娜4王金华王金华5王大勇王大勇6龚向荣龚向荣7胡玉胡玉8和平和平9刘平刘平10黎明黎明11李小林李小林12李勇李勇13陈泳陈泳14向丽娜向丽娜15吕明海吕明海16吴大维吴大维17王菲王
41、菲18窦唯窦唯19周润发周润发20张惠妹张惠妹21章子怡章子怡22刘玉文刘玉文23周结伦周结伦24韩红韩红25林忆莲林忆莲26梅艳芳梅艳芳27刘嘉玲刘嘉玲28张曼玉张曼玉29张柏芝张柏芝30周迅周迅31巩俐巩俐32刘晓庆刘晓庆33瞿颖瞿颖34刘德华刘德华35刘青云刘青云36梁朝伟梁朝伟37杨家辉杨家辉38钟镇涛钟镇涛39刘松仁刘松仁40汤镇业汤镇业41汤镇宗汤镇宗42孙楠孙楠43张艺谋张艺谋44冯小刚冯小刚45雪村雪村46英打英打47赵本山赵本山48崔永元崔永元 N N=100=100,需抽取,需抽取n=20n=20 N/nN/n=100/20=5=100/20=5 从从1-51-5中中随随机
42、抽取一机抽取一个号个号 选选中中4 4 从从第第4 4号开号开始,每隔始,每隔4 4个个,抽,抽选选一一个样个样本本系统抽样系统抽样 Systemic samplingSystemic sampling总总体体层层层层层层可按年龄、性可按年龄、性别、经济收入、别、经济收入、教育水平等分教育水平等分层层分分 层抽层抽 样样 Stratified samplingStratified sampling将总体分成若干群将总体分成若干群组,抽取其中部分群组组,抽取其中部分群组作为观察单位组成样本,作为观察单位组成样本,被抽到的群组中的全部被抽到的群组中的全部个体均作为调查对象。个体均作为调查对象。(例
43、如,按地理区域、行例如,按地理区域、行政区域、组织单位等划政区域、组织单位等划分群组分群组)。整群抽样整群抽样 Cluster samplingCluster sampling 一一级级抽抽样单样单位位二二级级抽抽样单样单位位第三节第三节 资料类型资料类型中医统计资料的来源:中医统计资料的来源:1.1.常规保存的记录常规保存的记录 (routinely kept (routinely kept records)records):指医疗卫生机构作为历史档案保存的常规活动记指医疗卫生机构作为历史档案保存的常规活动记录,如住院患者病历、法定传染病报表、职业病报表、医院录,如住院患者病历、法定传染病报
44、表、职业病报表、医院工作报表、病伤死亡年报表、肿瘤发病及肿瘤死亡报告卡、工作报表、病伤死亡年报表、肿瘤发病及肿瘤死亡报告卡、出生报告单、死亡报告单等。出生报告单、死亡报告单等。2.2.现场调查记录现场调查记录(surveyed (surveyed records)records):指用现场调查的方法获取的所需数据。:指用现场调查的方法获取的所需数据。3.3.实验记录实验记录(experimental (experimental records)records):包括实验室记录和临床试验记录。:包括实验室记录和临床试验记录。4.4.文献信息文献信息(literature (literature
45、information)information):如医学图书、期刊、会议论文集等。:如医学图书、期刊、会议论文集等。5.5.计算机网络信息计算机网络信息(computer network information)(computer network information) 第三节第三节 资料类型资料类型根据根据变量量值的性的性质(是否定量)可将(是否定量)可将资料分料分为:1.1.计量资料计量资料2.2.计数资料计数资料3.3.等级资料等级资料1.1.计计量量资资料料(measurement data)(measurement data)定义:定义:计量资料(计量资料(measurement
46、measurement datadata)又称定量资料()又称定量资料(quantitative quantitative datadata)或数值资料()或数值资料(numerical numerical datadata),是由仪器、工具或其它定量方法测定的某项指标量的大),是由仪器、工具或其它定量方法测定的某项指标量的大小所得到的资料。小所得到的资料。特点:特点:变量值大多有度量衡单位,其具体取值通常是正实数变量值大多有度量衡单位,其具体取值通常是正实数( (零、零、正整数和小数正整数和小数) )。多为连续性资料。多为连续性资料。 连续数据:连续数据:例:身高、体重、年龄、体温、血压例:
47、身高、体重、年龄、体温、血压离散数据:离散数据:例例: : 心率、白细胞计数、心率、白细胞计数、2424小时早博次数小时早博次数2.2.计数资计数资料料(enumeration data)(enumeration data) 定义:定义:计数资料(计数资料(enumeration dataenumeration data)又称定性资料)又称定性资料(qualitative (qualitative data)data)或无序分类资料(或无序分类资料(unordered categorical unordered categorical datadata),是将事物按不同的属性归类,清点每一类的
48、数量多少所),是将事物按不同的属性归类,清点每一类的数量多少所得到的资料。根据类别数的不同,计数资料分为二分类资料和无得到的资料。根据类别数的不同,计数资料分为二分类资料和无序多分类资料。序多分类资料。特点:特点:变量值表现为互不相容的属性或类别,无度量衡单位。变量值表现为互不相容的属性或类别,无度量衡单位。 二分类资料二分类资料(dichotomous data)(dichotomous data):是按互不相容的属性加以分类的资料。如有效、无效;治愈、未愈;阳性、是按互不相容的属性加以分类的资料。如有效、无效;治愈、未愈;阳性、阴性。阴性。 无序无序多分类资料多分类资料(multiple
49、classification data)(multiple classification data):是按不同的类别加以分类的资料。如中医病证的辨证分型;血型是按不同的类别加以分类的资料。如中医病证的辨证分型;血型A A、B B、O O、ABAB等。等。3 3. .等等级资级资料料( (ordinal dataordinal data) ) 定义:定义:等级资料等级资料(ordinal data)(ordinal data)又称半定量资料(又称半定量资料(semi-semi-quantitative dataquantitative data)或有序多分类资料()或有序多分类资料(ordere
50、d ordered categorical categorical datadata),是将事物属性按组别之间有程度或等级差别进行归类),是将事物属性按组别之间有程度或等级差别进行归类所得到的资料。所得到的资料。 如病情的轻、中、重;治疗结果的治愈、显效、好转、无效、恶化、死亡如病情的轻、中、重;治疗结果的治愈、显效、好转、无效、恶化、死亡;尿蛋白的、;尿蛋白的、等。、等。根据分析的需要,各种资料可进行相互转化。可将计量资料转根据分析的需要,各种资料可进行相互转化。可将计量资料转化为计数资料或等级资料,反过来,计数资料和等级资料可通化为计数资料或等级资料,反过来,计数资料和等级资料可通过数字编
51、码,即数值化方式,转化为计量资料。过数字编码,即数值化方式,转化为计量资料。 有效有效正常正常11.5811.5816.8016.80B B组组女女5555108108无效无效异常异常15.6615.6622.5622.56对照对照男男55554 4有效有效异常异常10.9310.9317.3317.33B B组组女女43433 3好转好转正常正常12.5712.5720.0020.00对照对照女女45452 2治愈治愈正常正常11.4711.4718.6718.67A A组组男男37371 1疗疗效效评评价价心心电图电图舒舒张压张压(kPa)收收缩压缩压(kPa)治治疗疗分分组组性性别别年年
52、龄龄(岁岁)患者患者编号编号 108108例高血压患者治疗后的临床记录例高血压患者治疗后的临床记录不同类型资料间的转化不同类型资料间的转化第四节第四节 医学统计工作的基本步骤医学统计工作的基本步骤d包括研究设计、收集资料、整理资料、分析资料、包括研究设计、收集资料、整理资料、分析资料、结果报告与结论表达等。结果报告与结论表达等。d这几个步骤是密切联系不可分割的,任何一个环这几个步骤是密切联系不可分割的,任何一个环节发生缺陷都会影响研究结果的质量和认证。节发生缺陷都会影响研究结果的质量和认证。一、研究设计一、研究设计v就是拟订一份合理的实验计划,将有关的研究方法就是拟订一份合理的实验计划,将有关
53、的研究方法与步骤的纲目拟订出来,用以保证取得一个较为客与步骤的纲目拟订出来,用以保证取得一个较为客观的研究结果。观的研究结果。v根据对研究对象是否施加干预措施,可将研究分为根据对研究对象是否施加干预措施,可将研究分为观察研究和实验研究两大类。观察研究和实验研究两大类。v无论是调查设计还是实验设计,均涉及专业设计与无论是调查设计还是实验设计,均涉及专业设计与统计设计。统计设计。二、搜集资料二、搜集资料1.1.真实真实 搜集资料的灵魂。坚持实事求是的科学态度,注重事物的客观搜集资料的灵魂。坚持实事求是的科学态度,注重事物的客观性,确保资料的真实、可靠。性,确保资料的真实、可靠。2.2.及时及时 搜
54、集资料的前提。资料的搜集料是时间性很强的工作,通常要搜集资料的前提。资料的搜集料是时间性很强的工作,通常要求以最少的时间、最快的速度及时搜集各种资料。求以最少的时间、最快的速度及时搜集各种资料。3.3.完整完整 搜集资料的基础。要求数据的全面性、系统性和多样性。搜集资料的基础。要求数据的全面性、系统性和多样性。4.4.准确准确 搜集资料的核心。准确与研究者的科学态度、经验和判断水平搜集资料的核心。准确与研究者的科学态度、经验和判断水平以及实验室条件等紧密相关。以及实验室条件等紧密相关。搜集资料的注意事项:搜集资料的注意事项:1 1内容与分析要求相吻合内容与分析要求相吻合2 2避免易误解的问题避
55、免易误解的问题 3 3力避漏填项目力避漏填项目4 4分析项目及其记录格式分析项目及其记录格式 5 5有效数字的取舍有效数字的取舍6 6数据的精度数据的精度(precision)(precision)二、搜集资料二、搜集资料三、整理资料三、整理资料d整理资料整理资料(sorting data)是指根据统计研究的任务与要求,对搜集的各种原始资是指根据统计研究的任务与要求,对搜集的各种原始资料进行综合与加工,使之料进行综合与加工,使之系统化系统化、条理化条理化,从而得出反映总,从而得出反映总体特征或规律的综合资料的工作过程。体特征或规律的综合资料的工作过程。d统计资料整理主要包括:统计资料整理主要包
56、括:整理方案整理方案、审核资料审核资料、设计分组设计分组、归纳汇总归纳汇总四个步骤。四个步骤。三、整理资料三、整理资料(一)整理方案:(一)整理方案:资料整理方案设计,即对资料整理的各个环节做出具体的安排资料整理方案设计,即对资料整理的各个环节做出具体的安排与规定,拟定工作计划。与规定,拟定工作计划。 确定资料的审查内容与方法。确定资料的审查内容与方法。 确定汇总的指标与综合表。确定汇总的指标与综合表。 确定分组方法。确定分组方法。 确定汇总的组织工作与时间安排。确定汇总的组织工作与时间安排。(二)资料审核:(二)资料审核:1.1.对资料质量的基本要求:及时、完整和准确。对资料质量的基本要求:
57、及时、完整和准确。2.2.原始资料的审核原始资料的审核 逻辑性审查:逻辑性审查: 专业检查:专业检查: 统计检查:统计检查: 计算机检查:目前较流行的数据软件有:计算机检查:目前较流行的数据软件有:EPI EPI DataData、ORCALEORCALE、MS-AccessMS-Access、SASSAS、CHISSCHISS、EXCELEXCEL等。等。3.3.缺项缺项(missing data)(missing data)处理处理三、整理资料三、整理资料(三)设计分组:(三)设计分组: 根据研究目的和研究现象的本质特征,按照某种分组标志将研根据研究目的和研究现象的本质特征,按照某种分组标
58、志将研究对象的全体分为若干组段或组别的过程。目的是揭示现象内究对象的全体分为若干组段或组别的过程。目的是揭示现象内部各部分之间存在的差异,显示组内的共性、相似性和组间的部各部分之间存在的差异,显示组内的共性、相似性和组间的差异性,认识它们之间的矛盾,表明事物的本质与规律。差异性,认识它们之间的矛盾,表明事物的本质与规律。1.1.分组的作用:分组的作用: 利于发现事物特点与规律利于发现事物特点与规律 将复杂的医学现象划分为不同类型将复杂的医学现象划分为不同类型 分析总体内部构成与相互关系分析总体内部构成与相互关系 揭示现象之间的依存关系揭示现象之间的依存关系三、整理资料三、整理资料2.2. 设计
59、设计分组标志的选择原则分组标志的选择原则根据研究目的选择最恰当的分组标志根据研究目的选择最恰当的分组标志 分析证型的构成,应选证型作为分组标志。分析证型的构成,应选证型作为分组标志。 分析病情与疗效的关系,应选病情的不同程度进行分组。分析病情与疗效的关系,应选病情的不同程度进行分组。 研究某方药对某病不同证型的疗效,就应按中医辨证分型进行分组。研究某方药对某病不同证型的疗效,就应按中医辨证分型进行分组。选择最能够反映事物本质或主要特征的标志选择最能够反映事物本质或主要特征的标志 研究糖尿病患者治疗情况,可按证型、病情和并发症作为分组标志。研究糖尿病患者治疗情况,可按证型、病情和并发症作为分组标
60、志。 反映糖尿病患者的疗效、并发症及其严重程度等预后标志,宜选用有无并发症及其反映糖尿病患者的疗效、并发症及其严重程度等预后标志,宜选用有无并发症及其严重程度作为分组标志。严重程度作为分组标志。结合研究对象所处的具体条件选择具有现实意义的标志结合研究对象所处的具体条件选择具有现实意义的标志 某一指标在一定时间、地点、条件下,可以作为最重要的标志,但事过境迁,标志某一指标在一定时间、地点、条件下,可以作为最重要的标志,但事过境迁,标志可能失去其当初所具有的重要意义。可能失去其当初所具有的重要意义。 如:早期发现肾功能减退的顺序为如:早期发现肾功能减退的顺序为SUASUABUNBUNScrScr,
61、但随着肾衰竭的进展,但随着肾衰竭的进展,SUASUA增高增高的程度不如的程度不如BUNBUN和和ScrScr,SUASUA在尿毒症时一般只增高在尿毒症时一般只增高1 1倍。倍。三、整理资料三、整理资料3.设计设计分分组方法方法按标志的不同表现形式分组:按标志的不同表现形式分组:数量分组:按被研究对象的数量分组:按被研究对象的数量大小数量大小来分组,从量的变化分析事物的差别和规律。来分组,从量的变化分析事物的差别和规律。如按年龄大小、疗程长短、脉搏快慢、血压高低等分组。如按年龄大小、疗程长短、脉搏快慢、血压高低等分组。品质分组:按被研究对象的品质分组:按被研究对象的性质性质、特征特征或或类型类型
62、等品质标志来分组。等品质标志来分组。如疾病按病因或证型分组;病情按轻、中、重分组;疗效按治愈、显效、好转、无效、如疾病按病因或证型分组;病情按轻、中、重分组;疗效按治愈、显效、好转、无效、恶化分组;化验检查按阳性、阴性或、恶化分组;化验检查按阳性、阴性或、分组等。分组等。按分组标志的多少分组:按分组标志的多少分组:简单分组:只按一个标志进行的分组。简单分组:只按一个标志进行的分组。如:为了验证某方药的疗效,可按证型或疗程、年龄、性别等单一标志进行分组。如:为了验证某方药的疗效,可按证型或疗程、年龄、性别等单一标志进行分组。复合分组:采用两个或两个以上标志结合起来进行分组。复合分组:采用两个或两
63、个以上标志结合起来进行分组。如:将证型、疗程、性别等标志结合起来分组,以认识某方药治疗某病的基本情况如:将证型、疗程、性别等标志结合起来分组,以认识某方药治疗某病的基本情况三、整理资料三、整理资料4.设计设计分分组的程序的程序选择分组标志选择分组标志选择分组方法选择分组方法确定组数:组数确定组数:组数(number of class)即分组的个数,亦称组段数,符号为即分组的个数,亦称组段数,符号为。组。组数的多少取决于研究目的、资料性质和观察单位的数的多少取决于研究目的、资料性质和观察单位的多少。多少。三、整理资料三、整理资料四、分析资料四、分析资料分析资料(分析资料(analysis dat
64、aanalysis data)包括统计描述)包括统计描述(statistical (statistical description)description)与统计推断与统计推断(statistical inference)(statistical inference)。统计描述是指用适合资料性质的统计指标、统计图表等,对统计描述是指用适合资料性质的统计指标、统计图表等,对资料的数量特征及其分布规律进行表达,以反映变量值的水资料的数量特征及其分布规律进行表达,以反映变量值的水平、频率、联系强度。平、频率、联系强度。统计推断是通过抽样研究,根据样本资料所提供的信息,对统计推断是通过抽样研究,根据样
65、本资料所提供的信息,对未知总体做出具有一定概率性的估计和推断,它包括参数估未知总体做出具有一定概率性的估计和推断,它包括参数估计和假设检验两方面。计和假设检验两方面。五、结果报告与结论表达五、结果报告与结论表达 统计学既是一门科学又是一门艺术,其艺术性是通过表达来体现的。统计学既是一门科学又是一门艺术,其艺术性是通过表达来体现的。 医学研究性论文主要由摘要、引言、材料与方法、结果和讨论等组成,医学研究性论文主要由摘要、引言、材料与方法、结果和讨论等组成,而每一部分或多或少都涉及统计表达。需要明确指出所使用的统计设计而每一部分或多或少都涉及统计表达。需要明确指出所使用的统计设计与分析方法,观察对
66、象的纳入与剔除标准,是否随机抽样与随机分组,与分析方法,观察对象的纳入与剔除标准,是否随机抽样与随机分组,使用的何种统计软件及其版本,样本统计量、总体参数可信区间,检验使用的何种统计软件及其版本,样本统计量、总体参数可信区间,检验统计量、值,并结合各学科专业知识对统计分析结果作出合理的解释,统计量、值,并结合各学科专业知识对统计分析结果作出合理的解释,进而得出可信赖的专业结论。另外,可借助统计图表直观、形象表达统进而得出可信赖的专业结论。另外,可借助统计图表直观、形象表达统计结果。计结果。 统计结果的规范化报告和结论的正确表达,能提高研究的认证度,也便统计结果的规范化报告和结论的正确表达,能提
67、高研究的认证度,也便于各层次的学术交流与研究。于各层次的学术交流与研究。统计学发展简史统计学发展简史古典统计学、近代统计学、现代统计学古典统计学、近代统计学、现代统计学统计学发展过程中出现过几次重大的争论:统计学发展过程中出现过几次重大的争论:u“政治算术政治算术”与与“国势学国势学”的争论,的争论,明确了统计学的学科性质;明确了统计学的学科性质;u“描述统计学描述统计学”与与“推断统计学推断统计学”的争论,的争论,构筑了统计学的完整体构筑了统计学的完整体系;系;u“经典统计学经典统计学”与与“贝叶斯统计学贝叶斯统计学”的争论,的争论,带来了统计哲学观的带来了统计哲学观的新变化;新变化;u信念
68、统计学与经典统计学、贝叶斯统计学的争论,信念统计学与经典统计学、贝叶斯统计学的争论,使统计推断科学使统计推断科学化问题的研究日趋深入。化问题的研究日趋深入。正是通过这些争论完善了现代统计学的思想和方法体系。正是通过这些争论完善了现代统计学的思想和方法体系。现代统计学现代统计学统计方法随着计算机和统计软件的出现,使统计学得到了突飞猛统计方法随着计算机和统计软件的出现,使统计学得到了突飞猛进的发展。进的发展。统计软件如统计软件如SASSAS、SPSSSPSS、Excel Excel 、S-plus S-plus 、 Stata Stata 、 Minitab Minitab 、Statistica
69、 Statistica 、Eviews Eviews 、PEMSPEMS、MatlabMatlab、马克威软件、马克威软件模型在统计和科学工作中的作用现已被广泛承认。模型在统计和科学工作中的作用现已被广泛承认。许多新的分支或专门化和应用已经被发展了:决策论,时间序列许多新的分支或专门化和应用已经被发展了:决策论,时间序列,多元分析,经济计量学,博奕论,临床试验,非参数推断,序,多元分析,经济计量学,博奕论,临床试验,非参数推断,序贯分析,数学生物分类学,及可靠性。数量统计及其应用正在继贯分析,数学生物分类学,及可靠性。数量统计及其应用正在继续发展和扩大。续发展和扩大。那些教给我们运用偶然性的数
70、学家们那些教给我们运用偶然性的数学家们 从概率论的发展这一独特视解,我们反观这个领域的数学们从概率论的发展这一独特视解,我们反观这个领域的数学们,他们是一群会运用偶然性的人。,他们是一群会运用偶然性的人。 数学家们不但教会我们运用确定的真理:太阳东升,四季变数学家们不但教会我们运用确定的真理:太阳东升,四季变迁,他们也教会我们发现在偶然性中的真理,回答我们黑色迁,他们也教会我们发现在偶然性中的真理,回答我们黑色豌豆和白色豌豆结出的果子什么颜色。豌豆和白色豌豆结出的果子什么颜色。 这里给出个这群伟人的全家福(按出生年排坐坐)。这里给出个这群伟人的全家福(按出生年排坐坐)。雅各布雅各布伯努利伯努利
71、( ( Jacob BernoulliJacob Bernoulli,165416541705)1705) 瑞士数学家(荷兰人)。瑞士数学家(荷兰人)。17131713年出版年出版猜度术猜度术,给出,给出伯努伯努利数利数、伯努利大数定律伯努利大数定律。他的主要贡献是建立了概率论中的第他的主要贡献是建立了概率论中的第一个极限定理,我们称为一个极限定理,我们称为“伯努利大伯努利大数定理数定理”,即,即“在多次重复试验中,在多次重复试验中,频率有越趋稳定的趋势频率有越趋稳定的趋势”。这一定理。这一定理在他死后,即在他死后,即17131713年,发表在他的遗年,发表在他的遗著著猜度术猜度术中。中。哈雷
72、哈雷 ( ( Edmond HalleyEdmond Halley,165616561742)1742)英国著名天文学家、数学家。英国著名天文学家、数学家。著名的哈雷彗星的发现者。著名的哈雷彗星的发现者。哈雷还发现了天狼星、南河三和大哈雷还发现了天狼星、南河三和大角这三颗星的自行,以及月球长期角这三颗星的自行,以及月球长期加速现象。加速现象。 Halley, Edmond 1656-1742棣美弗棣美弗 ( ( De MoivreDe Moivre,166716671754)1754)法国数学家法国数学家 。17301730年,年,分析杂论分析杂论著作中包含了著名的著作中包含了著名的“棣莫弗棣
73、莫弗拉普拉斯定理拉普拉斯定理”。接着拉普拉斯在。接着拉普拉斯在18121812年出版的年出版的概率的分析理论概率的分析理论中,首先明确地对概率作了中,首先明确地对概率作了古典的定义。古典的定义。17331733年建立了关于年建立了关于“正态分布正态分布”及及“最小二乘法最小二乘法”的理论,为整个大样本理论奠定了基础。的理论,为整个大样本理论奠定了基础。另一在概率论发展史上的代表人物是法国的泊松。另一在概率论发展史上的代表人物是法国的泊松。他推广了伯努利形式下的大数定律,研究得出了他推广了伯努利形式下的大数定律,研究得出了一种新的分布,就是泊松分布。概率论继他们之一种新的分布,就是泊松分布。概率
74、论继他们之后,其中心研究课题则集中在推广和改进伯努利后,其中心研究课题则集中在推广和改进伯努利大数定律及中心极限定理。大数定律及中心极限定理。贝叶斯贝叶斯 (Bayes, Thomas,1702(Bayes, Thomas,17021761)1761) 英国数学家英国数学家 ,是一位自学成才的数学家,是一位自学成才的数学家 贝叶斯发表贝叶斯发表论机会学说问题的论机会学说问题的求解求解中,提出了一种归纳推理中,提出了一种归纳推理的理论,以后被一些统计学者发的理论,以后被一些统计学者发展为一种系统的统计推断方法,展为一种系统的统计推断方法,称为贝叶斯方法称为贝叶斯方法 。欧拉欧拉(Leonhard
75、(LeonhardEulerEuler,1707,17071783)1783) 瑞士人,在数学、物理、天文、建筑以至音乐、哲学方面都取得辉煌成就。瑞士人,在数学、物理、天文、建筑以至音乐、哲学方面都取得辉煌成就。在数学领域以欧来命名的公式、定理和重要常数。在数学领域以欧来命名的公式、定理和重要常数。 f(x)f(x)(17341734年),年),(17361736年)年)e e、sinsin和和coscos(17481748年),年),tgtg(17531753年),年),x x、(17551755年),年),i i(17771777年)等。年)等。歌德巴赫猜想也是在他与歌德巴赫的通信中提出来
76、的。歌德巴赫猜想也是在他与歌德巴赫的通信中提出来的。欧拉首先完成月球绕地球运动的精确理论,欧拉首先完成月球绕地球运动的精确理论,创立了分析力学、刚体力学等力学学科,创立了分析力学、刚体力学等力学学科,深化望远镜、显微镜的设计计算理论。深化望远镜、显微镜的设计计算理论。1919世纪伟大数学家高斯曾说:世纪伟大数学家高斯曾说:“研究欧研究欧拉的著作永远是了解数学的最好方法。拉的著作永远是了解数学的最好方法。 拉普拉斯拉普拉斯 (M arquisde M ierre-Simon (M arquisde M ierre-Simon Laplace Laplace ,174917491827)1827)
77、 法国数学家、天文学家。法国数学家、天文学家。拉普拉斯是天体力学的主要奠基人,是天体演拉普拉斯是天体力学的主要奠基人,是天体演化学的创立者之一,是分析概率论的创始人,化学的创立者之一,是分析概率论的创始人,是应用数学的先躯。是应用数学的先躯。 用数学方法证明行星的轨道大小只有周期性变用数学方法证明行星的轨道大小只有周期性变化,即著名拉普拉斯的定理。化,即著名拉普拉斯的定理。他发表的天文学、数学和物理学的论文有他发表的天文学、数学和物理学的论文有 270 270 多篇,专著合计有多篇,专著合计有40064006多页。其中最有代表性多页。其中最有代表性的专著有的专著有天体力学天体力学、宇宙体系论宇
78、宙体系论和和概率的分析理论概率的分析理论。17961796年,他发表年,他发表宇宙体宇宙体系论系论。因研究太阳系稳定性的动力学问题被。因研究太阳系稳定性的动力学问题被誉为法国的牛顿和天体力学之父。誉为法国的牛顿和天体力学之父。 阿德利昂阿德利昂玛利玛利埃埃勒让德勒让德 ( ( Adrien Adrien Marie Legendre Marie Legendre ,1752175218331833法国数学家法国数学家 。从事数学分析、几何学、数论以及天体力学研究,建立数论和从事数学分析、几何学、数论以及天体力学研究,建立数论和椭圆积分的对数定理和二次互反律椭圆积分的对数定理和二次互反律 。勒让
79、德曾与拉格朗日(勒让德曾与拉格朗日(LagrangeLagrange)、拉普拉斯()、拉普拉斯(LaplaceLaplace)并)并列为法国数学界的列为法国数学界的“三三L L”,为,为1818世纪末世纪末1919世纪初法国数学家世纪初法国数学家的复兴做出重要贡献,并曾担任众多的官方职务的复兴做出重要贡献,并曾担任众多的官方职务 马尔萨斯马尔萨斯(Thomas Robert MalthusThomas Robert Malthus,1766176618341834)是英国人口学家和政治经济学家。于是英国人口学家和政治经济学家。于17981798年根据百余年人口统计年根据百余年人口统计资料提出了
80、著名的人口指数增长模型资料提出了著名的人口指数增长模型“人口论人口论”很悲观。他认为人口以几何级数上升,而物品供应只能以等差级很悲观。他认为人口以几何级数上升,而物品供应只能以等差级数上升,僧多粥少无可避免,最后的人口均衡点,是仅足以餬口数上升,僧多粥少无可避免,最后的人口均衡点,是仅足以餬口的物质享受,以饥饿淘汰不适者。的物质享受,以饥饿淘汰不适者。他的学术思想悲观但影响深远。他的学术思想悲观但影响深远。 虽然马尔萨斯的人口论存在一些问题,虽然马尔萨斯的人口论存在一些问题,但是,它是第一部较为系统的人口学但是,它是第一部较为系统的人口学著作。著作。高斯(高斯(Gauss,1777Gauss,
81、177718551855)德国人,发现正态分布方程,并德国人,发现正态分布方程,并成功地将正态分布理论用于描述成功地将正态分布理论用于描述观察误差的分布,并用于行星轨观察误差的分布,并用于行星轨迹的预测。迹的预测。正态分布又称正态分布又称GaussGauss分布。分布。泊松(泊松(Poisson, Simeon-Poisson, Simeon-DenisDenis)()(1781178118401840)泊松是法国数学家、物理学家和力学家泊松是法国数学家、物理学家和力学家 建立了描述随机现象的一种概率分布建立了描述随机现象的一种概率分布泊松分布泊松分布 发表了发表了关于球体引力关于球体引力和和
82、关于引力关于引力理论方程理论方程 泊松的主要著作还有泊松的主要著作还有毛细管作用新理毛细管作用新理论论和和热学的数学理论热学的数学理论等等 。高尔顿(高尔顿(F F GaltonGalton,1822182219111911)是英国人,是生物统计学最早创立者。是英国人,是生物统计学最早创立者。为了研究人的智力遗传和进化规律,高尔顿为了研究人的智力遗传和进化规律,高尔顿 在伦敦开设了在伦敦开设了“人体测量研究所人体测量研究所”,广泛招,广泛招 募志愿人员,采集到大量的有关人的自然属募志愿人员,采集到大量的有关人的自然属 性的资料。性的资料。先后出版了两本著作,一本是关于人的能力及其发展问题,先后
83、出版了两本著作,一本是关于人的能力及其发展问题,另一本是遗传的自然规律。另一本是遗传的自然规律。在这两本书及相关的论文中,高尔顿提出了诸如在这两本书及相关的论文中,高尔顿提出了诸如“相关相关”、“回回归归”、“中位数中位数”、“四分位数四分位数”、“四分位数差四分位数差”、“百分位百分位数数”等概念和计算方法。等概念和计算方法。格雷戈尔格雷戈尔孟德尔孟德尔(Gregor Johann MendelGregor Johann Mendel ,1822182218841884) 奥地利生物学家,奥地利生物学家,“现代遗传学之父现代遗传学之父”,18651865年发现年发现遗传定律。遗传定律。1.1
84、.分离定律分离定律孟德尔第一定律孟德尔第一定律基因作为独特的独立单位而代代相传。细胞中有成对基因作为独特的独立单位而代代相传。细胞中有成对的基本遗传单位,在杂种的生殖细胞中,成对的遗传的基本遗传单位,在杂种的生殖细胞中,成对的遗传单位一个来自雄性亲本,一个来自雌性亲本,形成配单位一个来自雄性亲本,一个来自雌性亲本,形成配子时这些遗传单位彼此分离。子时这些遗传单位彼此分离。 2.2.独立分配定律独立分配定律孟德尔第二定律孟德尔第二定律在一对染色体上的基因对中的等位基因能够独立遗传,与其在一对染色体上的基因对中的等位基因能够独立遗传,与其他染色体对基因对中的等位基因无关;并且含不同对基因组合的他染
85、色体对基因对中的等位基因无关;并且含不同对基因组合的性细胞能够同另一个亲本的性细胞进行随机的融合。性细胞能够同另一个亲本的性细胞进行随机的融合。 皮尔逊皮尔逊( (Karl Karl PearsonPearson,185718571936)1936) 皮尔逊是高尔顿的学生,他全面继承和发展了高尔顿的统计相关与回归思想皮尔逊是高尔顿的学生,他全面继承和发展了高尔顿的统计相关与回归思想,并建立了相应的数学基础。是现代统计学之父。,并建立了相应的数学基础。是现代统计学之父。 18931893年提出了标准差年提出了标准差 19001900年提出了年提出了2 2检验检验根据他的儿子根据他的儿子E E皮尔
86、逊(皮尔逊(E Pearson)E Pearson)的总结,主要为:的总结,主要为: (1 1)提出和研究了复相关、偏相关的问题)提出和研究了复相关、偏相关的问题(2 2)提出了似然函数、矩估计方法)提出了似然函数、矩估计方法(3 3)导出了重要的卡方分布)导出了重要的卡方分布(4 4)研究了许多概率分布曲线等)研究了许多概率分布曲线等高尔顿、高尔顿、 皮尔逊为在开展生物遗传学研究的同时,提出了许多处理变异数据的统计方皮尔逊为在开展生物遗传学研究的同时,提出了许多处理变异数据的统计方法,统计史上一般把他们的工作称作描述统计学。法,统计史上一般把他们的工作称作描述统计学。18941894开设第一
87、门统计学理开设第一门统计学理论高级课程。论高级课程。斯皮尔曼,查尔斯斯皮尔曼,查尔斯爱德华爱德华(Spearman,Charles Edward 1863Spearman,Charles Edward 18631945)1945) 英国著名的心理学家。英国著名的心理学家。 对认知心理学、差异心理学以及心理对认知心理学、差异心理学以及心理测量学有特别重要的贡献。测量学有特别重要的贡献。 发明了智力理论、相关系数衰减效应发明了智力理论、相关系数衰减效应的校正,以及因素分析;的校正,以及因素分析;发明等级相关系数以及提出关于测验发明等级相关系数以及提出关于测验信度和测验长度之间关系的准确公式信度和测
88、验长度之间关系的准确公式,即斯皮尔曼布朗预测公式。,即斯皮尔曼布朗预测公式。戈塞特戈塞特( (William Sealey GossetWilliam Sealey Gosset,187618761937)1937)英国统计学家,他发现小样本,平均数英国统计学家,他发现小样本,平均数 对其标准误差对其标准误差(t)(t)的分布不遵循正态曲线。的分布不遵循正态曲线。GossetGosset基于在酿酒公司多年的实验观察,基于在酿酒公司多年的实验观察, 洞察到大样本统计方法并不适用于所有洞察到大样本统计方法并不适用于所有 场合,有的时候人们还只能根据少量观察就必须做出结论场合,有的时候人们还只能根据
89、少量观察就必须做出结论. .戈塞特终于在戈塞特终于在19081908年导出了重要的年导出了重要的t t分布,首次以分布,首次以StudentStudent为笔名为笔名,在,在生物计量学生物计量学杂志上发表了杂志上发表了“平均数的概率误差平均数的概率误差”文章。文章。这是小样本统计推断的基石。以此为标志,统计学逐渐由描述统这是小样本统计推断的基石。以此为标志,统计学逐渐由描述统计学向推断统计学过渡。计学向推断统计学过渡。威布尔(威布尔( Weibull, Weibull, WallodiWallodi,1887188719791979)瑞典人,瑞典人,19321932年於年於 Universit
90、y of University of UppsalaUppsala获得博士学位。获得博士学位。19491949年年Weibull W.Weibull W. 用概率统计方法处理疲劳试验数据。用概率统计方法处理疲劳试验数据。 建立威布尔分布,寿命数据的建立威布尔分布,寿命数据的WeibullWeibull分析。分析。费暄(费暄(R A FisherR A Fisher, 189018901962)1962)费希尔(费希尔(R A FisherR A Fisher,) ) 是推断统计是推断统计 学的建立者,他在统计学上有着崇高的学的建立者,他在统计学上有着崇高的 地位,对统计学的许多领域进行了深入地
91、位,对统计学的许多领域进行了深入 独到的研究,独到的研究,开辟了方差分析、试验设计等统计学研究的理论分支,论证了开辟了方差分析、试验设计等统计学研究的理论分支,论证了戈塞特相关系数的抽样分布,提出了戈塞特相关系数的抽样分布,提出了t t分布检验、分布检验、F F分布检验、分布检验、相关系数检验,并编制了相应的检验概率表。相关系数检验,并编制了相应的检验概率表。由于费暄的突出贡献,统计史上一些人把费暄所处的时期,称由于费暄的突出贡献,统计史上一些人把费暄所处的时期,称为为“统计学的费暄时代统计学的费暄时代”。Frank WilcoxonFrank Wilcoxon, (1892(18921965
92、)1965)Frank Frank WilcoxonWilcoxon,是英国生物化学家、统,是英国生物化学家、统计学家。计学家。 WilcoxonWilcoxon利用统计学方法研究植物利用统计学方法研究植物病理学。一生共发表论文病理学。一生共发表论文7070余篇。余篇。他首次引入了两样本非参数检验方他首次引入了两样本非参数检验方法。法。 两个著名的非参数方法:两个著名的非参数方法:Wilcoxon Wilcoxon signed-rank test signed-rank test 、 Wilcoxon Wilcoxon rank-sum rank-sum testtest就是以他的名字命名的
93、。就是以他的名字命名的。Egon Sharpe Pearson(1895Egon Sharpe Pearson(18951980)1980) E.S. E.S. PearsonPearson,英国生物学家和统计学家,是,英国生物学家和统计学家,是Karl PearsonKarl Pearson之独子。之独子。1919 1919 年毕业于年毕业于 Cambridge Cambridge UniversityUniversity。1926 1926 年开始和年开始和Neyman Neyman 在学术上共同研究。对假设检验理论方在学术上共同研究。对假设检验理论方面认为应该考虑与待检验的零假设相对面认
94、为应该考虑与待检验的零假设相对应的备选假设。应的备选假设。 他和他和 NeymannNeymann合作的主要论文有:合作的主要论文有:关于统计关于统计推断的某些检验准则的运用和解释推断的某些检验准则的运用和解释、关于两组样本问题关于两组样本问题、关于统计假关于统计假设的最有效检验问题设的最有效检验问题等。等。 内曼内曼 ( (Jerzy NeymanJerzy Neyman,189418941981)1981) JerzyJerzyNeymanNeyman及及EgonEgonsharpesharpePearsonPearson在一系列的杰出的文在一系列的杰出的文章中澄清了推断理论,特别是有关显
95、著性检验的基本原理一其合章中澄清了推断理论,特别是有关显著性检验的基本原理一其合理性以往是常被批评。早期的显著性检验为关于二项变量之间或理性以往是常被批评。早期的显著性检验为关于二项变量之间或均值之间的,它们被均值之间的,它们被K.PearsonK.Pearson推广至推广至2 2检验,被检验,被R.A.FisherR.A.Fisher推广到推广到F-F-检验,推广了检验,推广了StudentStudentT-T-检验。检验。NeymanNeyman和和E.S.FearsonE.S.Fearson看出,为了更有效,应该考虑与待检验看出,为了更有效,应该考虑与待检验的零假设相对应的备选假设。他们
96、在这样的检验中设立两种误差的零假设相对应的备选假设。他们在这样的检验中设立两种误差并因素导致了他们的基本引理,似然比检验,及势的概念;他们并因素导致了他们的基本引理,似然比检验,及势的概念;他们顺便验证了大多数常见的显著性检验的应用;他们还引进了置信顺便验证了大多数常见的显著性检验的应用;他们还引进了置信限;但是他们的体系从未被限;但是他们的体系从未被FisherFisher所承认。所承认。 哈罗德哈罗德霍特林霍特林(Harold Hotelling, 1895Harold Hotelling, 189519731973)美国人,是统计学界、经济学界、数学界美国人,是统计学界、经济学界、数学界
97、公认大师公认大师 。他对统计理论最重要的贡献是多变量分析他对统计理论最重要的贡献是多变量分析,最重要的论文则是,最重要的论文则是 The The generalization of Studentgeneralization of Students s ratioratio,即目前著称的霍特林,即目前著称的霍特林T T方方(Hotel(Hotellinglings T2 )s T2 )。 他在主成分分析他在主成分分析 (principal components (principal components analysis)analysis)和典则相关和典则相关(canonical (canon
98、ical correlations)correlations)的发展上也扮演重要的角的发展上也扮演重要的角色。色。费列尔费列尔( ( William FellerWilliam Feller,190619061970)1970)费列尔出生在南斯拉夫克罗埃西亚费列尔出生在南斯拉夫克罗埃西亚( Croatia, ( Croatia, 位于位于) )的萨格勒布的萨格勒布(Zagreb)(Zagreb),起先他受教于萨格勒布大学,后来,起先他受教于萨格勒布大学,后来进入哥丁根大学,并在进入哥丁根大学,并在 19261926年取得博士学位。年取得博士学位。19391939年前往美国普洛维登斯年前往美国普
99、洛维登斯 (Providence)(Providence)的罗得岛的罗得岛 (Rhode (Rhode Island)Island)。 19451945年于康乃尔大学担任教授,之后在年于康乃尔大学担任教授,之后在19501950年成为普林斯顿大学年成为普林斯顿大学尤金希金斯尤金希金斯 (Eugene (Eugene Higgins)Higgins)数学讲座教授,他一直担任这个职务。数学讲座教授,他一直担任这个职务。他对机率理论有重大的贡献,所写的两册书他对机率理论有重大的贡献,所写的两册书 An Introduction An Introduction to Probability Theor
100、y and its Applications, Vol. I, Vol. to Probability Theory and its Applications, Vol. I, Vol. IIII已成为机率里的经典之作。已成为机率里的经典之作。费列尔在费列尔在 19691969年获颁国际科学奖章。年获颁国际科学奖章。薛仲三(薛仲三(1907190719881988)我国的统计学家。我国的统计学家。统计图表规格化、符号系统化、计算程序化、说统计图表规格化、符号系统化、计算程序化、说理通俗化,使统计学易学、易懂、易用,进行了理通俗化,使统计学易学、易懂、易用,进行了开拓性的工作。开拓性的工作。编成
101、编成两千年中西历对照表两千年中西历对照表,撰写,撰写高等统计高等统计学学和和普通统计学普通统计学,制定了,制定了六位简易对数六位简易对数表表和和六位对数表六位对数表。擅长大样本统计资料的处理,为部队编写了多种擅长大样本统计资料的处理,为部队编写了多种卫生统计资料。他诲人不倦,培养了大量统计学卫生统计资料。他诲人不倦,培养了大量统计学人才。热心统计咨询,对推动医学期刊的统计处人才。热心统计咨询,对推动医学期刊的统计处理,提高论文质量作了大量的工作。理,提高论文质量作了大量的工作。 19481948年,郭祖超教授编著的年,郭祖超教授编著的医学与生物医学与生物统计方法统计方法,是我国第一部医学统计方
102、法,是我国第一部医学统计方法的教科书。的教科书。郭祖超教授郭祖超教授(1912191219991999)David Roxbee CoxDavid Roxbee Cox(19241924) 英国统计学家。英国统计学家。19721972年,发表了在生存分年,发表了在生存分析领域具有开创性的论文析领域具有开创性的论文回归模型和寿回归模型和寿命表命表,提出了著名的,提出了著名的CoxCox比例风险模型比例风险模型,从而极大地推动了寿命分布模型的发展,从而极大地推动了寿命分布模型的发展并且拓宽了模型的应用。在并且拓宽了模型的应用。在19901990年,他因年,他因此获得了凯特灵奖和金质奖章。此获得了凯
103、特灵奖和金质奖章。从从19661966年到年到19911991年,年,CoxCox发表了发表了300300多篇论多篇论文。文。他的主要著作有:他的主要著作有:统计推断原理统计推断原理、应用统计学应用统计学、随机过程理论随机过程理论、二二分类变量的分析分类变量的分析、多元相关多元相关、实实验设计理论验设计理论等等。等等。 【目的要求目的要求】1 1掌握统计学中总体与样本、参数与统计量、随机抽样与随机化、频率、掌握统计学中总体与样本、参数与统计量、随机抽样与随机化、频率、概率与小概率、随机误差(随机误差、系统误差)与非随机误差等基本概率与小概率、随机误差(随机误差、系统误差)与非随机误差等基本概念
104、。概念。2 2熟悉统计工作的基本步骤。熟悉统计工作的基本步骤。3 3了解医学统计学的发展简史。了解医学统计学的发展简史。4 4了解了解SPSSSPSS统计软件的简介。统计软件的简介。5 5掌握掌握SPSS15.0 for SPSS15.0 for WindowsWindows的安装与快捷方式的建立、的安装与快捷方式的建立、SPSSSPSS的主要操作界面;数据库的建立、的主要操作界面;数据库的建立、构成、数据库的编辑整理及文件的编辑操作。构成、数据库的编辑整理及文件的编辑操作。6 6熟悉熟悉SPSS15.0 for Windows SPSS15.0 for Windows 的组成及特点;的组成及特点;SPSSSPSS的运行环境、的运行环境、SPSSSPSS系统帮助功能;系统帮助功能;SPSSSPSS系统的基本系统的基本运算符与常用函数。运算符与常用函数。谢谢!