《精编》Minitab学习笔记精髓

资源描述

《《精编》Minitab学习笔记精髓》由会员分享，可在线阅读，更多相关《《精编》Minitab学习笔记精髓（8页珍藏版）》请在金锄头文库上搜索。

1、Minitab学习笔记Minitab使用说明，即各功能简单说明：1、Calc Menu 计算按钮1.1Calculator:进行算数计算包括数学符号、对照符号和逻辑符号。1.2Column Statistics:进行选定列的简单数学统计。1.3Row Statistics:进行选定列的行的简单数学统计。1.4Standardize:对选定的列进行标准化处理。1.5Make Patterned Data：在一列中按设定规则生成数字或时间的。1.6Make Mesh Data：在一列中按设定规则生成坐标（x,y）1.7Make Indicator Variables:将一列中的各种类型的数据进行指

2、标处理，即按1，0进行处理。1.8Set Base1.9Random Data：生成一组随机数据可以从列里，也可以从一个已知的分布里。1.10Probability Distributions：针对连续性函数或离散性函数进行概率密度、概率的计算。1.11Matrices：对矩阵进行操作。2、Data Menu 数据菜单2.1Subset Worksheet:拷贝特定的行从活动的页面到一个新的页面。2.2Split Worksheet：按照一个或者多个变量把一个活动的页面拆分成一个或者更多的页面。2.3MergeWorksheets：合并两个页面到一个页面。2.4Sort：区分一个或者多个数据列

3、。2.5Rank：对一列数据进行排序并且赋值表示这种排序。2.6Delete Rows：删除一个页面的特定行。2.7Erase Variables：清除任何列、常数、矩阵的组合，可以清除不需要的所有变量。2.8Copy：从一个页面拷贝到另外一个页面，可以拷贝整个选择的范围。2.9Stack：把多列累积到一列，组成一个长列。2.10Unstack：把一列拆分成多短列。2.11Transpose Columns：对页面进行转置，把列转换为行。2.12Concatenate：把多个列的文字连接起来放到一列。2.13Code：对列中数据进行分析转换，比如得到一个日期的季度值等。2.14Change D

4、ata Type：仅对列中数据进行数据类型的转换。2.15Dispaly Data：在session window中放置当先worksheet中的数据。2.16Extract from Date/Time to Numeric/Text:从时间类型的数据中提取对应文字或者数字数据。3、Statistics 统计3.1Basic Statistics：基本统计3.1.1Display Descriptive Statistics：分布描述统计。进行每列或者按变量的每一水平的基本数值统计和作表。3.1.2Stores Descriptive Statistics：存储描述统计。进行每列或者按一个或

5、者多个变量进行区分后的基本竖直统计和作表并存储。3.1.3Graphical Summary：图形性质的摘要。可以对数据是否服从正态分布进行判断和进行相关分析。3.1.4 1-Sample Z：在s（标准差）已知的情况下进行置信区间或者假设检验的计算。案例：如果进行9种零件的测算，你根据历史数据可以得到测量值近似于正态分布并且s=0.2，你想检验是否总体的平均值是5，并且对平均值得到90%的置信空间可以用此方法。3.1.5 1-Sample t-Test：T检验。在s标准差未知的情况下进行总体样本空间均值的假设检验和90%置信区间的求解。根据P-value值判断假设检验是否满足显着性检验，90

6、%的置信区间比在已知s的情况要稍微大些。3.1.6 2-Sample t：两独立样本空间的T检验。在总体样本空间s标准差未知的情况下，进行两个总体均值差的假设检验。案例：两种取暖设备效能的比较，将两种设备的能源消耗量进行统计，后比较两组数据的均值是否有差别，通过P-value进行判断。3.1.7 Paired t：对两个不独立（样本差值服从正态分布）的样本空间的均值的差距进行检验。和2-Sample t检验的区别是该检验时两个数据作为一对进行检验，消除了对与对之间的差异。案例：有一家制鞋公司，想测试两种鞋底材料的区别就用不同的鞋底作了相同的两只鞋，然后发给10个年轻人进行试验，左右脚穿不同鞋底

7、的鞋，这是就要进行成对T检验（Paired t）以消除不同的人的差异，比如有的人在城市走的大多是铺过的路面，有的在乡村则大多是没有铺过的路面，采用Paired t 就能消除这种差异，因此比2-Sample t 有更小的错误区间。3.1.8 1 Proportion：用于进行一个比例的置信区间和假设检验的检验。案例：一个区级律师打算晋级洲级律师事务所，他决定如果他的团队成员大于65%的人支持他则它做出这个决定，否则放弃这个决定，这里就用到了假设H0：P=0.65 H1：P0.65。然后收集随机的950个选定的团队成员的数据，发现560个支持这个决定，这是就要用该检验，结果P值为1.0大于一般的认

8、定值，因此接受H0。即不大于65%的人支持他。3.1.9 2 Proportions 该方法主要是用来比较两个比例的值得置信区间和假设检验，案例：一个化妆品公司打算向顾客提供化妆品使用装以提高顾客的回头率，这里就要用到2 Proportions，即比较提供化妆品使用装和不提供使用装的回头率的值有没有显着性不同。3.1.10 Correlation：用来计算所列每对变量的相关系数。可以计算两个变量的线性关系得程度，采用关系系数来表示，关系系数是一个-1到1的值，表示正比例或者反比例关系。同时给出每个关系得P值，当P值小于假设检验的值0.01时说明两组数据的关系系数不是0。Partial Corr

9、elation：可以利用计算机计算排出了其他因素影响情况下的两组数据的关系系数（与单独把两列数据进行计算不同）。3.1.11 Covariance：计算每类数据对的协方差，也是计算两个变量数据的关系计算，只是协变量没有进行标准化，Correlation 已经进行了标准化处理。3.1.12 Normality Test：正态性检验。用来计算观测的一批数据是否服从正态性分布。P-value越大说明正态性程度越强。3.2Regression 回归分析。3.2.1 Regression 分为单变量和多变量两种方式，即找出两个变量或一个变量和多个变量之间的线性关系。P-value值表示该变量或者常数对结

10、果是否有显着性关系，即是否此变量是目标函数的变量。R2和adjusted R2表征该模型与实际数据的匹配程度。Predicted R2值如果和R2 ，adjusted R2接近表示该模型有足够的预测能力。3.2.2 Stepwise 阶梯逐步。通过对P-value的判断对回归分析中的变量进行增删，根据具体问题的不同分为三种（增删型、增加型、删除性）。可以根据每次变量的表现值来决定变量的增删直到得到比较好的表现值。在进行可选变量的设定时应该注意顺序，把最有可能的变量放在前面，然后按顺序进行排列。 3.2.3 Best Subsets：利用选定的变量构造最合适的回归模型，是一个利用尽可能少的变量确

11、认回归模型的有效方法。该方法提供最好的和次好的一元模型、二元模型和三元模型和多元模型。3.2.4 Fitted Line Plot：进行线性或者多次方单参数的回归分析。案例：如果要分析机械设定值和能量消耗的关系，如果一直该关系是一个曲线的关系，则可以用此来分析。同样用P-value值来表示匹配程度，值越小越匹配。3.2.5 Partial Least Squares：局部最小二次方法。是一个偏的不最小平方的回归方法，它涉及一套预测变量到多反馈变量。当预测变量是高线性或者预测的变量相对于观测次数太大或者一般的最小二次方法失败不能达到高标准时可以采用PLS。案例：一个葡萄酒制造商想知道不同的化学成

12、分和葡萄酒味道的影响，有37个葡萄酒的样本，每个样本都有17种元素按不同的浓度构成，并求有对该37个样本的评价分数，当想预测味道的分数和17种元素的关系时，PLS是一个适当的方法因为样本和变量的比例是低的。由统计分析可知在预测偏差方面两因素模型的较为理想，并且可以得到最适合的模型。并且比较可知PLS的预测指数比最小二次访模型要好。该分析方法的图形显示中有各个因素的标准系数。并且可以通过连线的长度表示变量和目标函数的关系密切程度，越短说明关系越不密切。3.2.6 Binary Logistic Regression：和least squares regression一样研究一个反映变量和一个多者

13、多个子变量的关系，只是Logistic Regression 用于离散属于某一范围的的反映变量，linear regression 用于连续的反映变量。两者都是用来估计模型的参数从而使模型更加完美，只是Least squares 是最小化方差，logistic regression是通过计算最大相似程度。Binary Logistic Regression、Ordinal Logistic Regression 和Nominal Logistic Regression只是因爲变量的情况不同而有所不同。Binary Logistic Regression变量有两个范围属于二水平的问题，比如説：失

14、败，成功；是，否。Ordinal Logistic Regression变量有三个或多个水平的问题，属于自然顺序的水平问题，比如説好，中，差。Nominal Logistic Regression变量有三个或者多个，并且没有自然顺序的水平问题，比如説：蓝色，黑色，红色，黄色；晴天，下雨，阴天。没有固定的顺序或者说没有自然的先后。3.2.7Binary Logistic Regression案例分析：作爲一个研究者，想做一项研究关于休息时脉搏的跳动频率和吸烟体重的关系，因爲把脉搏的跳动频率进行了区分（高和低）这样binary logistic regression是一个合适的方法。3.2.8Or

15、dinal Logistic Regression案例分析：作爲一个生物学家，你相信在过去的一些年中东北地区的sala成年母体正在逐渐变小，你想调查是否存在某些联系在孵化的sala存活时间和水毒性的水平之间，同时地区的差异是否有影响。存活时间分爲三种：1：10d;2:10-30d;3:31-60d.3.2.9Nominal Logistic Regression案例分析：作爲一个小学的教学主任，你想知道孩子们的兴趣选择和他们的年龄，教学方法有什麽关系。30个10-13岁的孩子进行科学、数学、语言艺术的课程采用训导和讨论两种方式，在学年的末尾统计每个孩子的兴趣爱好，在此种数据的基础上我们可以分析

16、兴趣和年龄和教育方式的关系问题。3.3Analysis of Variance方差分析和回归分析有些类似，都是用来研究和模拟因变量和一个或多个自变量之间的关系，但是anova和回归分析在两个方面有不同，一、自变量定性的而不是定量的，当然有的模型同时支持定型和定量；二、关于这些关系没有一个假设，也可以说该模型不包括变量的系数。实际上anova分析是两样本t检验的一个扩展（即两样本空间样本平均值是否相等检验的扩展，多样本）。3.3.1One-Way：即检验样本总体的均值是否相等，区分样本空间的是一个变量，该变量有三个或者多个水平，如果是两个水平则蜕化为t检验。案例：设计一个试验来家难四种地毯产品的耐用性，我们把每一种地毯的样本分别放到四个家庭中进行60天的试验，即60天后进行耐用性的测量。3.3.2One-Way（untacked）和3.3.1的区别在于因变

展开阅读全文

《精编》Minitab学习笔记精髓

最新文档