《2.试验资料的整理与特征数的计算》由会员分享,可在线阅读,更多相关《2.试验资料的整理与特征数的计算(49页珍藏版)》请在金锄头文库上搜索。
1、数据统计分析基础:数据统计分析基础:试验资料的整理与特征数的计算试验资料的整理与特征数的计算喘粮坑哼愈硅侨攘路计程胶郭衫芭剑肺汲轨扶注痉蹈浪僳辕锐尺媳笆曾尚2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算统计分析过程统计分析过程基于统计或实际观察提出假设(问题)基于统计或实际观察提出假设(问题)概念的可操作型定义概念的可操作型定义抽取样本或受试者抽取样本或受试者调查调查实验设计实验设计数据收集数据收集数据整理数据整理编制图表、统计描述编制图表、统计描述解释解释数据是总体或样本数据是总体或样本结果发现,对总体进行分析、总结结果发现,对总体进行分析、总结统计推断统计推断总体总体样本
2、样本阑擦讽于抠瑶摆揩臻酌梁边噬总狙串擅类溉命酋幢屏沽般唾挂帛呵碎写厚2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算统计数据的类型统计数据的类型按计量尺度按计量尺度按收集方法按收集方法按时间状况按时间状况分分类类数数据据顺顺序序数数据据数数值值型型数数据据观观测测数数据据实实验验数数据据截截面面数数据据序序时时数数据据揩辞户串刑化贿嫁挣咱蠕盯肯晚黎岩伤屋烂验孟联陡泅钮木社舌诈彪郊艇2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算. .分类数据分类数据(Categorical data)Categorical data)对事物进行分类的结果。对事物进行分类的结果。
3、数据表现为类别,用文字表述。数据表现为类别,用文字表述。对事物应进行平行的分类。对事物应进行平行的分类。各类别可以指定数字代码表示。各类别可以指定数字代码表示。分类数据举例:性别,学历,地区等。性别:男分类数据举例:性别,学历,地区等。性别:男-1-1,女女-0-0。一、分类数据、顺序数据、数值型数据一、分类数据、顺序数据、数值型数据如娘赃棺伯传户椰灶幻阂泽雪汤渐链文们顽榜绪何裳框铬有奥些演绊瞩哈2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算2.2.顺序数据顺序数据(Rank data)(Rank data)对事物进行分类的结果,但类别有顺序。对事物进行分类的结果,但类别有顺
4、序。比分类尺度精确。比分类尺度精确。未测量出类别之间的准确差值。未测量出类别之间的准确差值。顺序数据举例:考试成绩、消费者对产品的偏爱程顺序数据举例:考试成绩、消费者对产品的偏爱程度等。考试成绩:优度等。考试成绩:优-5-5、良、良-4-4、中、中-3-3、及格、及格-2-2、不、不及格及格-1-1。琐仅翘堪猩趴呵咕损瓷儿盖破譬统喻斯箱断鸿匿俗形猩库船享谚贴匠越累2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算3.3.数值型数据数值型数据(Metric data)Metric data)使用自然或度量衡单位对事物进行计量的结果。使用自然或度量衡单位对事物进行计量的结果。结果表现
5、为具体数值,是最常见的数据类型。结果表现为具体数值,是最常见的数据类型。数值型数据举例:污染物的浓度。数值型数据举例:污染物的浓度。袍省梢党屏账痕千乾衰查凋粒岸胆掖鸡辈鸯旭器剖幽抹交汝让畦藐瀑啮参2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算分类数据和顺序数据分类数据和顺序数据:说明的是事物的品质特征,用文字:说明的是事物的品质特征,用文字表示表示-定性数据或品质数据定性数据或品质数据。数值型数据数值型数据:说明的是现象的数量特征,用数值表示:说明的是现象的数量特征,用数值表示-定量数据或数量数据定量数据或数量数据。定性数据和定量数据也可以相互转化。定性数据和定量数据也可以相
6、互转化。如年龄如年龄:老年、中年、青年、儿童:老年、中年、青年、儿童 学历:大学学历:大学-1-1、高中、高中-2-2、初中、初中-3-3、小学、小学-4-4三种类型数据的比较三种类型数据的比较娩党乔归硷漠糕爪镍域篓蛆幕衰钩捷咬职咕螟憋麻仪烹醒池俺捌创司滩努2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算1.1.观测数据观测数据(observational data)observational data):通过调查或观测:通过调查或观测而收集到的数据而收集到的数据社会经济领域社会经济领域2.2.实验数据实验数据(experimental data)experimental da
7、ta):在实验中控制实验:在实验中控制实验对象而收集到的数据对象而收集到的数据自然科学领域自然科学领域二、观测数据和实验数据二、观测数据和实验数据民化晚殉聋衍深唱王逛寸冗舱保刹葛焕骸雌昌唆鼎灸霞底琼疹扮冠巢响聘2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算1.1.截面数据截面数据(cross-sectional data)cross-sectional data):在相同或近似相同:在相同或近似相同的时间点上收集的数据。如的时间点上收集的数据。如20052005年我国各地区的年我国各地区的GDPGDP数据。数据。2.2.时间序列数据时间序列数据(time series dat
8、a)time series data):在不同时间上收集:在不同时间上收集的数据。如的数据。如1996-20051996-2005年我国的年我国的GDPGDP数据。数据。三、截面数据和时间序列数据三、截面数据和时间序列数据妄郊屁卓迅暗钦秽湘鹰绕犹揭涡或隔仅寂蔽庭确肘须夺忌坤匝陕丑证继饼2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算总体和个体总体和个体 总体总体总体总体(populationpopulationpopulationpopulation):具有相同性质的个体所组成的集合,):具有相同性质的个体所组成的集合,):具有相同性质的个体所组成的集合,):具有相同性质的个体
9、所组成的集合,它是指研究对象的全体。它是指研究对象的全体。它是指研究对象的全体。它是指研究对象的全体。有限总体有限总体有限总体有限总体:被研究对象是有限的,如:一批样品的总:被研究对象是有限的,如:一批样品的总:被研究对象是有限的,如:一批样品的总:被研究对象是有限的,如:一批样品的总数。数。数。数。无限总体无限总体无限总体无限总体:被研究对象是无限的,如:如企业生产以:被研究对象是无限的,如:如企业生产以:被研究对象是无限的,如:如企业生产以:被研究对象是无限的,如:如企业生产以前、现在、将来全部的产品。前、现在、将来全部的产品。前、现在、将来全部的产品。前、现在、将来全部的产品。 个体个体
10、个体个体(individual)(individual)(individual)(individual):组成总体的基本单元。:组成总体的基本单元。:组成总体的基本单元。:组成总体的基本单元。 总体含量总体含量总体含量总体含量:总体所含的个体数,常用:总体所含的个体数,常用:总体所含的个体数,常用:总体所含的个体数,常用N N N N来表示。来表示。来表示。来表示。磕烁麓即衅映泊粤斥半押檄斜凳泅雇里薛骄癸蒜泽攫恐侥嚼唉连钦良搀肾2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算样本样本 样本样本样本样本(sample)(sample)(sample)(sample):从总体中随机
11、抽出,并要对其进:从总体中随机抽出,并要对其进:从总体中随机抽出,并要对其进:从总体中随机抽出,并要对其进行详细研究的一部分个体。样本有一个或若干个行详细研究的一部分个体。样本有一个或若干个行详细研究的一部分个体。样本有一个或若干个行详细研究的一部分个体。样本有一个或若干个样品(个体)组成。样品(个体)组成。样品(个体)组成。样品(个体)组成。 样本容量(样本容量(样本容量(样本容量(n n n n):样本中所含个体的数目。:样本中所含个体的数目。:样本中所含个体的数目。:样本中所含个体的数目。n30n30n30n50050050050015-3015-3015-3015-30珊劫竣毒囤耀贩厢
12、芋贰降沛灯耗柔匈默喂屠靡到喘巢圈补伯烤灼特慢坞涛2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算算术均数(算术均数(arithmetic mean)arithmetic mean):全部数据的算术:全部数据的算术平均数平均数计算公式:计算公式:特点特点:最常用的测度值最常用的测度值均值利用了全体数据均值利用了全体数据易受数据中极端值的影响易受数据中极端值的影响用于数值型数据,而不能用于分类数据和顺序数据用于数值型数据,而不能用于分类数据和顺序数据平均数平均数(Mean)友了诧靖伸蔼障筒椎噶欢曳隙委惹庞酗养捏公碟脏借分淑堕锹冗蚀损车啥2.试验资料的整理与特征数的计算2.试验资料的
13、整理与特征数的计算例例:测测得得8只只正正常常大大鼠鼠血血清清总总酸酸性性磷磷酸酸酶酶(TACP)含含量量(U/L)为为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试试求求其其算算术术均均数。数。想蔷漳冶鹤卓裴池色艇椒柳反光微剧伴苫叛业痴闽霞岁兆疥忱握据村幢拦2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算加权计算法加权计算法:适合于频数分布表资料求均数。:适合于频数分布表资料求均数。式中式中k是组段;是组段;fi为每组段的频数;为每组段的频数;Xi为每组段为每组段的组中值。组中值等于本组段的下限和上限相的组中值。组中值等于本组段的下限和上限
14、相加除以加除以2 2。i=1,2 k 。付借搽鲍盒卒鸵吊盘伪守肃哀怎拉初刀苏狰铜哦闹浸蓄拇高婪擒凄妄耶态2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算 用加权法计算均数用加权法计算均数廓纫炎仲蛙墒搏剑憨砍陨悯骚昂风浩钠斗炕昨嘿贞犬剖姐剃脱庚蠕娱轻例2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算众数(众数(ode)定义定义:样本数据中出现频数最高的那个样本值:样本数据中出现频数最高的那个样本值特点特点:不受极端值的影响不受极端值的影响可能没有众数或有几个众数(不唯一性)可能没有众数或有几个众数(不唯一性)主要用于分类数据,也可用于顺序数据或数值型主要用于分类数
15、据,也可用于顺序数据或数值型数据数据何华薯爽砖妨疾寓辈民硅胀副航钙兵坚鲤茅择偿舷豆教歼絮完孜彭游拍宰2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算算例算例某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布广告类型广告类型广告类型广告类型人数人数人数人数比例比例比例比例频率频率频率频率(%)(%)(%)(%)商品广告商品广告商品广告商品广告服务广告服务广告服务广告服务广告金融广告金融广告金融广告金融广告房地产广告房地产广告房地产广告房地产广告招生招聘广告招生招聘广告招生招聘广告招生招聘广告其它广告其它
16、广告其它广告其它广告112112112112515151519 9 9 916161616101010102 2 2 20.5600.5600.5600.5600.2550.2550.2550.2550.0450.0450.0450.0450.0800.0800.0800.0800.0500.0500.0500.0500.0100.0100.0100.01056.056.056.056.025.525.525.525.54.54.54.54.58.08.08.08.05.05.05.05.01.01.01.01.0合计合计合计合计2002002002001 1 1 11001001001000
17、商品广告商品广告补避夕批慧铣咨贱秧籽黔酚缩歼干笺党刘逛烁雕全瓣农明叔磕左残阵悟宛2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算算例算例甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数(户)户数(户)户数(户)户数(户)百分比()百分比()百分比()百分比()非常不满意非常不满意非常不满意非常不满意不满意不满意不满意不满意一般一般一般一般满意满意满意满意非常满意非常满意非常满意非常满意242424241081081081089393
18、939345454545303030308 8 8 836363636313131311515151510101010合计合计合计合计300300300300100100100100M M0 0不满意不满意绩碴扒瞳寸梨末碰敬都献界秆彦响霉撮哮嚏畅酚熔址例症挠怂叉涂葡渠娇2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算中位数(中位数(Median)Median)定义定义:对样本数据由小到大排序,处于:对样本数据由小到大排序,处于“正中间位置正中间位置”上的数据上的数据特点特点:不受极端值的影响不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用主要用于顺序数据,也可用于
19、数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最于分类数据,各变量值与中位数的离差绝对值之和最小,即小,即函社毁汾胆撤帚宵瘩舞机凄苔放纷某讣卷冗嗣絮磊绢韦咆垮怪本曲狈领涝2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算计算公式计算公式囚编近舅镀张批俭画奄烽周亥高人闸民碧烯酥锅起溶诬砂占猪卷掌兰吴唁2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算原始数据:原始数据:24,22,21,26,2024,22,21,26,20个数据个数据排序:排序:20,21,20,21,2222,24,26,24,26位置:位置:1, 2, 3, 4, 51, 2,
20、 3, 4, 5位置位置(n+1)/2=(5+1)/2=3(n+1)/2=(5+1)/2=32222原始数据:原始数据:10,5,9,12,6,810,5,9,12,6,8个数据个数据排序:排序:5,6,5,6,8,98,9,10,12,10,12位置:位置:1,2,3,4, 5, 61,2,3,4, 5, 6位置位置(n+1)/2=(6+1)/2=3.5(n+1)/2=(6+1)/2=3.5(8+9)/2=8.5(8+9)/2=8.5算例算例馒葬震吵粱抗脯佰蛔八霓厕牡排是幸答酷台屉虫亦俩褥侩鞍四胳庸枫尖扭2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算几何平均数(几何平均数(
21、geometric mean) 定义定义定义定义:n n n n个观测值,其乘积开个观测值,其乘积开个观测值,其乘积开个观测值,其乘积开n n n n次方所得的值次方所得的值次方所得的值次方所得的值. . . . 特点特点特点特点:适用于变量:适用于变量:适用于变量:适用于变量x x x x为对数的正态分布。为对数的正态分布。为对数的正态分布。为对数的正态分布。堡画簧屋哑露恍甥役否奠袁渤宗尿沟惨诊瀑龚酸柠爱呐梁绵波哦疮波莲蝶2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算变异数:变异数:用于度量变量的离散型用于度量变量的离散型前面讲授的频率分布有集中趋势和离散趋势两个特征,前面
22、讲授的频率分布有集中趋势和离散趋势两个特征,说明描述资料的全面变化规律需把二者结合起来。通说明描述资料的全面变化规律需把二者结合起来。通过下例可说明这个问题。过下例可说明这个问题。例例:现现有有3组组健健康康女女大大学学生生的的口口腔腔温温度度测测得得值值如如下下,试试分析其集中趋势和离散趋势。分析其集中趋势和离散趋势。1组组 36.8 36.9 37.0 37.1 37.22组组 36.5 36.9 37.0 37.1 37.53组组 36.5 36.7 37.0 37.3 37.5痉者知升澄站勉晃闹胀蔽漱钒赊慷街氟烂铬枚叉斯囚悯狼孩硒拄区码摸球2.试验资料的整理与特征数的计算2.试验资料的
23、整理与特征数的计算前前面面三三组组学学生生的的平平均均口口腔腔温温度度都都是是37.037.0()(),即即集集中中趋趋势势相相同同,但但能能说说明明三三组组数数据据的的变变化化规规律律相相同同吗吗?我我们们通通过把上述三组数据转化成数轴上的点看看这个问题。过把上述三组数据转化成数轴上的点看看这个问题。显显然然三三组组学学生生的的口口腔腔温温度度值值参参差差不不齐齐的的程程度度都都各各不不相相同同。第第1 1组组数数值值较较为为集集中中,第第2 2、3 3组组数数值值较较为为发发散散。说说明明三三组数据的离散趋势是不相同的。组数据的离散趋势是不相同的。的丛圾嘿斥兰衅谰隋过挚泄把霞菱围奠创矽认颠
24、咋霓巢寞寸乌皂岂抨饵杜2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算全距(极差)(全距(极差)(angeange):一组数据的最大值与:一组数据的最大值与最小值之差最小值之差特征特征:离散程度的最简单测度值离散程度的最简单测度值易受极端值的影响易受极端值的影响未考虑数据的分布未考虑数据的分布吗堵途猿叶捐夏溉孺罪哭义勺刑轧媚疙肛展波禹皇八靶辫粗剔身浊摊乃惑2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算方差(方差(VarianceVariance)定义定义:各变量值与均值的平均差异:各变量值与均值的平均差异特点特点:最常用的离散程度的测度值最常用的离散程度的测度
25、值反映了数据的分布反映了数据的分布威琵钝昧树自厩瘫凭喇喻收菲认碰粕娜挞裕饺昏与师伦逃浅碑钻箭需褒需2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算标准差(标准差(Standard Deviation)Standard Deviation):定义定义:方差的算术平方根:方差的算术平方根特点特点:与变量值的计量单位相同与变量值的计量单位相同比方差更常用比方差更常用街铲蹄涸帧椰棒袁闸稀侥磕留锁缸考之俩耙印氦梗或仙赤小缝傈夺念傲寂2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算变异系数变异系数 当平均数相差悬殊或单位不同时,用标准差说当平均数相差悬殊或单位不同时,用标准
26、差说当平均数相差悬殊或单位不同时,用标准差说当平均数相差悬殊或单位不同时,用标准差说明变异程度不合适,为了克服这一缺点,用标明变异程度不合适,为了克服这一缺点,用标明变异程度不合适,为了克服这一缺点,用标明变异程度不合适,为了克服这一缺点,用标准差除以样本平均数。准差除以样本平均数。准差除以样本平均数。准差除以样本平均数。戎扼另慈店图得持彻言闻朝烫跃唉左田冷索赘魄胰抄鸯蛆顽藐傻隆饵屿括2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算例例:某某地地调调查查150名名女女大大学学生生身身高高均均数数为为162.05cm,标标准准差差为为4.67cm;体体重重均均数数为为50.10kg,标标准准差差为为4.98kg。试比较身高与体重的变异程度。试比较身高与体重的变异程度。身高身高体重体重樟二旱沛寸呀跨土霖匣恰加泳甚宽奖迷幢莫约让伞乌理闯局肤轩摆雏戚浇2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算规湖猿述诊狮目摈枢税阜寅毖需疏桃晒招升五账适结仓赂烁访啊咏峙况罕2.试验资料的整理与特征数的计算2.试验资料的整理与特征数的计算