《第十章唐传奇与俗讲PPT课件.ppt》由会员分享,可在线阅读,更多相关《第十章唐传奇与俗讲PPT课件.ppt(60页珍藏版)》请在金锄头文库上搜索。
1、统计学原理与SPSS初步应用 杨端和 定性分析和定量分析 定性分析 用文字语言进行相关描述 它是主要凭分析者的直觉 经验 凭分析对象过去和现在的延续状况及最新的信息资料 对分析对象的性质 特点 发展变化规律作出判断的一种方法 定量分析 用数学语言进行描述 它是依据统计数据 建立数学模型 并用数学模型计算出分析对象的各项指标及其数值的一种方法 相比而言 定量分析方法更加精确 但需要较高的数学 统计学知识 定量分析就是通过比较对照来分析问题和说明问题的 正是通过对各种指标的比较或不同时期同一指标的对照才反映出数量的多少 质量的优劣 效率的高低 发展速度的快慢等 才能作出判断 得出可靠的结论 我们文
2、科出身的语言教师一般数学基础都相对薄弱 对于数据与统计都比较生疏 还由于统计学理论本身复杂难懂 以语言研究为目的 专门探讨怎样用统计学原理来处理评估语言数据的专著也很少 因而 统计学这门重要的应用学科在我们的语言教学 科研中并没有得到广泛 充分应用 现在有了像SPSS这样强有力的统计研究与数据分析工具 我们广大语言教师只要经过一段时间的学习 就可掌握这一研究工具 在我们的语言教学 科研中熟练掌握 使用它来对科研项目 学术论文的大量数据进行定量分析 得出令人信服的结论就不再是不可企及的梦想 统计学 statistics 的基本概念 统计学是高等数学的一个分支 是利用量化数据作出客观判断的科学 是
3、进行任何科学研究必不可少的一个重要工具 描述统计学与推导统计学描述统计学 DescriptiveStatistics 用不同的方式来描述所获得的数据 例如分数的高低 内部差异的大小等 推导统计学 InferentialStatistics 从某一部分群体的特征推导出整体的特征 例如从某一个学校学生的英语水平推导出这个地区所有学生的水平 总体和样本总体 population 具有相同性质的研究对象的总和 例如可以说海明威 老人与海 所有限定动词的总体 等 总体还可再分为有限总体与无限总体 有限总体 FinitePopulation 老人与海 中 所有限定动词 是有限的 可数的 这就是有限总体的例
4、子 无限总体 InfinitePopulation 有些总体从理论上讲可能是无限的 例如英语句子的长度可以是无限的 Thisisthecatthatranafterthemousethatcameoutfromthehousethattheoldmanbuilt 样本 Sample 从某一总体中取出的代表总体特征的一个部分 参数及统计值参数 Parameter 代表总体的一般特点的数据就称为参数 例如 一篇英语文本共有60 5320个词 这个数字就是这篇文本的长度参数 统计值 Statisticalvalue 从总体中获得的样本的特点 例如 从刚才提到的那篇6万多词的文本中随机抽出1 200个
5、词 统计出这些词的平均长度是3 8个字母 这个数字就是样本的统计值 统计学研究的主要内容之一就是变量 独立变量 IndependentVariable 变更一个或一组条件 然后观察这种变更对我们感兴趣的另外一些特点的影响 这些我们能够变更的变量就称为独立变量 应变量 DependentVariable 受这种变更影响的变量就是应变量 语言教学方法 句子的复杂程度 社会阶层等都是独立变量 而语言考试成绩 受试者正确复述句子的数量 发卷舌 r 音的人在美国某一社会阶层中所占的比例则都是应变量 连续变量及离散变量连续变量 ContinuousVariable 可在特定范围内任取一个值 相邻两值可取无
6、数数值 例如 发一个英语元音所用的时间就是一个连续变量 离散变量 DiscreteVariable 只能取某些值的变量 例如 任何一个英语词只能是由1 2 3 4 个字母组成 语言研究受试者只能是20 500 或1 000人等 离散变量只能按整数计算 不能有小数 当然 词的平均长度或受试者的平均人数是连续变量 可以取3 15或55 4这样的值 定性变量 QualitativeVariable 这种变量就是要为某些量 定性 说明 是 还是 不是 而不说明是 多 还是 少 例如 一个词在一个特定的句子中只能属于某一词类 我们只能说 这是个形容词 或 这不是个形容词 不能说 这个词或多或少是形容词
7、序列变量 RankingVariable 与定性变量恰恰相反 序列变量可划分为等级或程度 汉语发音的正确程度可用等级来表达 可以说 学生A的发音比学生B正确 而学生B又比学生C正确 掌握一门语言的熟练程度也是一种序列变量 在序列变量中 等级与程度的差异是连续 渐次变化的 中间没有明确的间隔 说学生A的发音比学生B的好 而学生B的又比学生C的更正确 但学生A与学生B的发音差异是否与学生B与学生C的差异完全一样就很难说了 比例变量 RatioVariable 以零为起点来计算比例 例如 某人发一个汉语韵母的时间是1 2秒 而另一个人只用了0 6秒 所以 这个人的发音时间就比那个人长了一倍 可以看出
8、 时间就是一个比例变量 描述统计学 DescriptiveStatistics 简介 摘自 语言统计学 用不同的方式来描述所获得的数据 就是描述统计学 包括集中趋势与差异性计算 主要内容有平均值 中数 众数 全距 方差及标准差的计算 集中趋势 CentralTendency 与差异性 Discrepancy 计算 测量数据的排列状态就是研究它们的集中趋势 包括计算平均数 中数及众数 平均数 mean 中数 median 把一组数据由高到低排列 中间的那个数就是中数 它上面和下面都有同样多的数 但如果这一组数是偶数 就要将中间的这两个数相加 再取它们的平均数 这个平均数就是这组偶数的中数 众数
9、mode 众数就是一组数据中出现频数最高的那个数 差异性计算包括计算全距 方差和标准差 1 全距 Range 全距就是一组数据的最大数与最小数之差 两组分数 A组 424649505866687075788085B组 313845495152556871758590A组的全距 85 42 43B组的全距 90 31 59 2 方差 Variance V 和标准差 StandardDeviation SD S td 计算一组数据之间内部差异最常用的方法就是计算方差和标准差 方差和标准差是密切相关的两个概念 方差就是标准差的平方 标准差就是方差的平方根 3 计算标准差的公式 这两组简单数据的平均分
10、都是50 而标准差却相差很大 1组 4849505152标准差 1 582组 2030506090标准差 27 39可见 第2组的内部差异要比第1组大得多 用计算机来处理这些数据非常简单 稍后我们就用SPSS软件来演示 计算这几项常用的描述统计学数据 下面用两位学者为我的书写的书评来简要介绍这个世界知名统计软件 SPSS软件简要介绍 摘自书评 语言研究应用SPSS软件实例大全 评介 刊载于外语类核心期刊 外语电化教学 2005年第3期 作者 孟凡胜 胡加圣 书评前言 美国芝加哥专业软件公司设计开发的社会科学统计软件SPSS StatisticalPackageforSocialSciences
11、 是一个功能完善 不断升级换代的统计数据分析软件 有 世界优秀统计工具 的盛名 自从其8 0版本改为Windows制式以来 数据输入 保存 操作方式都变得及为简便 即便是初学者也可以很快上手 输出的图表更加规范豪华 更易于修改 缩放 打印 因而早已超越国界 为世界各国的研究人员所喜爱 自九十年代中期以来 SPSS的10 0版本及后来的新版本在我国得到广泛的传播 成为众多研究人员必不可少的研究工具 虽然称为 社会科学统计软件 但实际上在自然科学领域使用得更加广泛 这当然是由于自然科学工作者对统计学原理有更深地理解 而在我们语言研究 教学领域 对这一软件的使用并不普遍 这可能应归结为很多文科出身的
12、语言工作者对统计学数据 计算机应用有天生的恐惧 同时也是由于还没有一本专门为广大语言工作者 语言教师撰写 以语言研究为目的 全面论述这一软件综合应用的参考书 云南师范大学杨端和教授撰写的专著 语言研究应用SPSS软件实例大全 中国社会科学出版社2004年4月出版 ISBN7 5004 4300 5 710 980毫米 1 16开本 287页 319千字 定价32 00元 是第一本这样的专著 填补了这一领域的空白 该书用解析众多语言研究实例的方法 将统计学基本的阐释与软件运行步骤说明有机地结合起来 深入浅出 全面论述这一优秀统计工具的11 0版本在语言研究 语言教学各分枝领域各个层面的全方位应用
13、 值得一提的是作者在演示这一软件的运行过程时 已将所有的英语统计学术语 板块名称 说明与命令语句都译成了汉语 使得不懂英语的语言工作者也能应用 熟练掌握这一强有力的研究工具 并将其得心应手地应用于自己的科研实践中 因此 该书对于语言文字 中外文学 语言学及应用语言学专业研究人员 教师 硕士 博士研究生具有较高参考价值 也可作为 语言研究方法论 语言测试与统计学 及 语言教学评估 等研究生课程的教科书或参考书 新加坡国家大学中文系最先看到了该书的价值 已将它定为该系研究生 汉语计量分析 课程的主要教材 台湾 香港的几所主要大学的图书馆收藏了该书 国内数十所大学也将该书列为语言专业研究生参考书或教
14、材 书中的很多实例 本身就是现成的研究项目或专题 相信广大语言工作者定会从中得到借鉴与启示 书评结束语 政治经济学的一个基本观点就是生产工具的使用水平反映出社会生产力发展的水平 在语言研究中使用什么样的研究工具 研究手段 就体现了语言研究的发展水平 因此 我们新世纪的语言研究要走向现代化 首先就应该实现研究工具 研究手段的现代化 走应用计算机软件全方位处理语言数据之路 所以说 该书对于提高我国的语言研究量化分析水平 对于普及计算机在语言研究信息处理方面的应用所作的贡献是显而易见的 笔者相信 该书会成为广大语言研究人员 语言教师 语言专业研究生一本常用的参考书 作者在前言中讲述写作这本书的动机时
15、充满企盼地说 作者执著的追求就是要帮助我们的语言工作者拿起SPSS这一强有力的研究工具 我们相信 作者的企盼一定为成为现实 其实这也是我们撰写这一书评的初衷 SPSS软件界面及数据录入模式简介 1 变量视窗 variableview 在变量视窗建立变量 转换 2 数据视窗 dataview 数据录入 在数据视窗录入数据 每个空格录入一个数 数据集的保存与调出 数据集命名 中文 英语都可以 保存 可保存在任何一个盘上 调出 点击即可调出应用 描述统计学数据示例 从Analyze下拉菜单选择DescriptiveStatstics分板块 点击Frequencies栏 将文件bar 1中的a b c
16、 四个变量都从左侧源变量栏选入右侧variables 计算变量 栏内 然后点击坐下侧displayingfrequencytables 点击主对话框下方Statistics 统计值 按钮 进入Frequencies Statistics 频数 统计值 子对话框 左下侧的Dispersion 离散趋势 栏 全选 右上侧的CentralTendency 集中趋势 栏 也是全选 有下方的Distribution 分布特征 栏不选了 点击Continue按钮 返回主对话框 点击主对话框下部Charts按钮 进入Frequencies Chart 频数 制图 子对话框 选择histogram 直方图 点击withnornalcurve 添加正态分布曲线 点击Continue按钮 再次返回主对话框 点击主对话框OK 常用统计图制作 误差条图 ErrorBar 口语评估标准实验 未参照细则与参照细则对比 文件名 errorbar从graph到errorbar项 进入后选Clustered 选择Summariesforgroupsofcases 点击Define后 将 口语成绩 选入右边Variabl