第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌

上传人:f****u 文档编号:122863206 上传时间:2020-03-07 格式:PPTX 页数:41 大小:204.97KB
返回 下载 相关 举报
第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌_第1页
第1页 / 共41页
第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌_第2页
第2页 / 共41页
第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌_第3页
第3页 / 共41页
第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌_第4页
第4页 / 共41页
第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌》由会员分享,可在线阅读,更多相关《第三届全国统计学课程教学研讨会资料;主讲嘉宾 会议合影教学全套课件 基于大数据思维的统计学若干理论李金昌(41页珍藏版)》请在金锄头文库上搜索。

1、基于大数据思维的统计学若干理论问题 浙江财经大学李金昌2017 5 6 一 关于统计学的三个判断 从端始的政治算术到如今的数据科学 统计学在近400年的发展历史中 为人类社会进步发挥了不可替代的巨大作用 与人类社会的发展变化紧紧地交织在了一起 尽管统计学在发展过程中有不同的阶段特征 但我们可以判断 它在以下三个方面始终保持不变 首先 统计学以现象数据作为研究对象没有变 变的只是范围扩大了 数据型态和来源不同了 以各种现象的数据 或数量方面 作为统计学的研究对象是历史的必然选择 也是政治算术而非国势学被认为统计学起源的理由所在 一般地 现象数据体现为五个方面 数量规模 数量规律 数量关系 数量变

2、动和数量界限 统计学正是在研究这些数量特征的过程中因不断创新发展统计方法而发展起来的 从初级数据到科学数据再到大数据 统计学大体上经历了 只能收集到少量的数据 尽量多地收集数据 科学利用样本数据 综合利用各类数据 选择使用大数据 这样一个过程 相应地 统计学产生了大量观察法 统计分组法 综合指标法 归纳推断法 模型方程法和数据挖掘法等统计方法 显然 数据是催生统计方法的土壤 这一点至今未变 萨维奇 L J Savage 说 统计学是寄生的科学 其意思就是统计学的营养来自于各个领域的数据 离开数据统计学将不复存在 当然 在大数据时代 无论是其型态 来源 还是体量 构成 或是载体 表现 数据都发生

3、了重大变化 更加丰富多彩 更加具有可选择性 这对统计学来说是好事 关键是我们如何更好地从肥沃的土壤中汲取营养 总结 一切可记录的信息都是数据 但数据处理和分析的目的是成为有用的信息 数字型 数字化 符号 可计算 可分析 数据是资源 而且是始终短缺的 最重要的资源 拥有所需的真实数据 就可拥有一切 没有真正的全体数据 一切数据都是样本数据 但样本的意义不一样 目标全体型的样本数据 普查数据 大数据 与目标部分型的样本数据 随机与非随机 所以统计推断与分析的方法不一样 无论何种来源 何种方式和何种范围的数据 根本问题都是小数据问题 数据分析的基础是测度 甚至可以说任何数据分析的过程都是测度过程 大

4、数据分析的难题是复杂性 但更难的是认识大数据产生的规律性 随机 半随机 人为 其次 统计学作为方法论科学的性质没有变 变的是方法论基础更加广泛了 并且更加注重与现象本质相结合 尽管对统计学是方法论科学还是实质性科学尚存争论 但统计学确实拥有一整套如何收集和分析数据的方法 不论历史上有过多少次争论 应该说从威廉 配第的 政治算术 包括约翰 格朗特 关于死亡表的自然和政治观察 开始 统计学就奠定了其作为方法论科学的学科地位 至今未变 不承认统计学是方法论科学的观点主要有两种 一是认为统计学就是数学的应用 因为统计学离不开数学运算 所以没有自己独立的方法 数学追求的是 数 的 理 统计学追求的是有

5、理 的 数 即 义 二是认为统计学缺乏方法论基础 只是运用各种工具对数据作出解释 力图发现现象之本质而已 与其他实质性科学没有区别 需要什么样的数据 如何获得数据 如何让数据表现现象本质 如何解释数据等等 依然是方法问题 当然 统计学方法并不是在任何领域都一成不变或完全通用的 而是需要紧密结合具体领域形成有所不同甚至完全独特的方法 越注重现象的本质 越需要科学的方法 在大数据时代 统计学方法论的性质只会强化而不会削弱 因为大数据的复杂性 不确定性和涌现性 使我们认识现象的本质更加困难 将有更多的未知等待我们去解决 总结 统计学作为收集和分析数据的科学 与艺术 自然属于方法论科学 让数据说真话是

6、统计学的任务 也是完善和发展统计方法的方向 但统计学的方法论有两层意思 一是其一般理论和方法在各个不同的数据研究领域都具有一定的指导意义 例如收集数据的大量观察法 分析数据的分组法 归纳法和模型法等 都是在不同领域常用的方法 二是不同的领域有不同的 独特的数据收集和分析方法 不可能所有的领域都使用完全相同的数据研究方法 例如经济领域的统计方法除了通用的一般理论与方法外 还包括投入产出法 国民经济核算法等一些非常重要的特有方法 它们是数据研究基本思想与经济现象本质特征相结合的产物 所以 经济统计学 人口统计学 生物医学统计学和天文气象统计学等都可以形成自己独特的 在领域内通用的理论方法体系 正因

7、为如此 统计学定量研究的功能才得以充分的发挥 应用领域也得以迅速的拓展 第三 统计学的根本任务没有变 即帮助人类更有效地探索真相 追求真理 变的是环境更复杂了 任务更加艰巨了 C R 劳的 统计与真理 怎样运用偶然性 明确指出统计学是探索真理必不可少的工具 其基本要义有两点 一是人类社会认识世界 探索真理的过程是艰辛的 因为面对事物的不确定性 我们常常缺乏足够的信息或缺乏足够的知识去获得有效的信息 二是统计学基于数据的归纳思维与特有的量化事物不确定性的方法 可以极大地提升人们认识事物真相的能力 具体三大任务 一是发现规律 即发现现象总体分布特征及其发展变化趋势 描述其静态分布规律 观察其动态变

8、化规律 二是探求关系 包括不同现象或事物之间 同一现象或事物内部不同指标之间 同一现象或事物同一指标在不同时间上的关系 相关关系和因果关系 三是推断未知 包括由样本推断总体和由过去推断未来 也包括相关指标之间的推算 在大数据背景下 由于数据本身的各种变化 将使我们无论是发现规律还是探求关系或是推断未知都变得更为艰难 尽管统计学的研究对象依然是现象的数据 但大数据背景下的数据已不再是传统意义上的数据 数据本身产生了很多变化 出现出了很多新的动向 归纳起来主要有以下四个方面 二 统计学研究对象的四个新动向 一 数据内涵有新理解不难发现 传统的数据是以数字为基础 能够进行常规数学运算的数据 即我们通

9、常所说的定量数据 大数据则以能传播 储存 再现的信号为基础 除了少量常规数据外 大量的数据表现为文字 符号 代码 图像和声音 信息量很大 但量化过程十分困难 数据的这种基础转变 或许就是大数据与传统数据的根本区别 同步地 统计数据处理与分析的理念也必须转变 即以可计算为标准转变为以可分析为标准 因为传统的 以可计算为标准的统计方法已难以消化与处理大数据 只有转变为以可分析为标准才能找到新的突破口 那么什么是以可分析为标准的数据分析 我们的粗浅理解就是挖掘式的数据分析 就是从大数据中寻找有价值信息的过程 显然 以可分析为标准的数据处理包含了以可计算为标准的数据分析 二 数据结构与来源有新方式以可

10、计算为标准的数据 是可以用二维逻辑表表示的结构化数据 然而大数据时代大量的数据是不可以直接用二维逻辑表表示的非结构化 半结构化数据 非结构化数据如何量化 如何从中提取信息 如何与结构化数据对接是一个崭新的问题 更甚的是 量化 的含义恐怕也不一样了 正如Franks所说 几乎没有哪种分析过程能够直接对非结构化数据进行分析 也无法直接从非结构化的数据中得出结论 传统的统计数据基本上通过专门调查来获取 事先都有明确的总体和数据获取方案 一般可以追溯 但不可动态扩充 大数据则是一种基于电子网络技术自动记录 储存的各种信息 一般没有事先确定的总体范围和数据收集方案 很多情况下无法追溯与还原 但可以连续动

11、态扩充 大数据并非都可以直接使用 必须对其进行清洗 然后再选用 所以 以大数据为研究对象 数据的获取过程就变成了从中清洗筛选的过程 三 数据不确定性有新表现个体的差异性和事物产生变化的不确定性 以及由此带来的数据的不确定性 是统计学存在的前提 也是统计方法论的核心问题 可以说 迄今为止 统计学就是因研究数据的不确定性而发展起来的 困难也出在这个不确定性上 C R 劳的 统计与真理 怎样运用偶然性 一书就是主要围绕不确定性开展讨论的 现有的统计理论与方法很大部分是以样本数据为基础发展起来的 不难发现 在个体差异性和事物不确定性的前提下 数据的不确定性就是样本获得的不确定性 在概率抽样下 样本获取

12、的不确定性表现为随机性 可以用概率来表示 结果是可以评价的 相比之下 大数据已经是适时条件下的全体数据而非样本数据 是不是就没有不确定性的问题了 答案是否定的 而且比样本数据的不确定性更为复杂 主要表现为以下六个方面 一是数据总体的不稳定性 即数据总体一直处于动态变化之中 或许前后相隔一秒钟就不一样了 因为大数据总体是由所有被记录的数据所组成的 是先有数据后有总体 与原来的先有总体后有数据完全不同 所以数据总体只能以时间限制来确定 数据的这种时间上的变动与一般总体的个体变动相比 显然更加缺乏稳定性 二是数据表现的非标准性 即大数据下一步会出现什么样形态的数据是无法事先设定的 没有统一标准 不像

13、传统方式经由统一定义的指标来获取符合标准的数据 这无疑使得数据分析更加复杂 三是数据含义的非单一性 即相同的数字 文字 符号 声音 图像等在不同的数据库 不同的网络系统 甚至不同的时间都可能具有不同的含义 特别是阶段性的网络流行用语与原词语的意义可能已经完全不同 这必将给统计测度带来巨大的困难 四是数据产生的非独立性 即大数据 尤其是网络社交大数据 例如微信大数据 存在着典型的团群现象 使得产生的数据既具有一定的随机性 又具有一定的规律性 因成员的相互影响而具有非独立性 我们能否在数据分析中掌握大数据的这种特征 五是数据信息的模糊性 即大数据 尤其是网络社交大数据在很多情况下其信息含义是不明确

14、的 含糊不清的 所以大数据中最大的问题首先是要弄清楚一个个小数据的信息意义 尽管传统的专门调查数据有时候也存在一定的类似问题 但它们毕竟可以在必要时进行追溯审核 因而具有一定的可控性 六是数据来源的有偏性 即对于有些研究目标而言 大数据并非是无偏的数据来源 因为大数据仅局限于已被记录的部分 所以如果不顾研究目标与数据条件的匹配性而盲目使用大数据 就有可能导致分析结果的严重偏差 如何判断数据来源是否有偏 对大家来说也是一个新的问题 四 数据分析思路与技术有新要求传统的数据分析是先明确研究目的 后确定指标与数据来源 再按照事先设定模型进行有针对性的计算分析 其分析思路是 定义式的现象特征描述 常规

15、的归纳推理分析 但大数据分析一般不可能事先就能定义总体并确定研究变量 测度方法与分析模型 只能根据实际情况边认识 边定义 边分析 因而其分析思路是 探求式的现象本质描述 多元化逻辑推理分析 即挖掘性数据分析 由于对大数据我们缺乏研究的积累 所以只能边借用已有方法 边研究新的方法 两者并重 三 需要重新理解的三组基本概念 针对数据的新动向 基于大数据思维 统计学中的一些基本概念也蕴含了新的含义 需要我们重新加以理解或定义 以便及时为大数据分析提供有效的理论支持 我们认为主要有以下三组概念 一 总体 个体与样本总体 个体和样本是统计学中最基本也是最重要的基本概念 并且构成了统计学中最基本的关系 我

16、们通常说 统计研究就是着眼于总体 着手于样本 立足于个体 因为总体是被研究的客体 样本是作为总体的缩影而被观察的客体 而个体则是提供数据的基本元素 传统统计研究的基本逻辑是 先确定研究目标 现象总体和个体 再确定所需变量或指标 最后向全部个体或部分个体获取数据 显然 是先有总体再有数据 然而在大数据背景下 除了实验数据和机器数据等有明确的个体名录外 我们先看到的是数据而不是数据的承担者 特别是网络数据 我们根本就不知道何时会出现新的数据承担者 也难以识别它们的基本特征 所以是先有数据后有总体 可以说 大数据的最大特征就是总体跟着数据走 有什么样的数据就构成什么样的总体 我们认为大数据背景下的总体可以有两种理解 第一种是由某时刻状态的全部小数据构成的数据总体 其中的小数据就是基本元素 至于什么是小数据要根据数据性质来确定其统计标准 第二种是由某时刻状态的所有小数据的承担者所组成的事物总体 其中的小数据承担者即个别事物就是基本元素 它也需要根据实际情况加以界定 这种理解与现有统计学定义类似 但逻辑次序却完全相反 不是由个体引出数据而是由数据引出个体 现实中的大数据符合第一种理解的总体将更为

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号