大数据与宏观经济分析研究综述_刘涛雄

上传人:飞****9 文档编号:132659250 上传时间:2020-05-18 格式:PDF 页数:8 大小:293.86KB
返回 下载 相关 举报
大数据与宏观经济分析研究综述_刘涛雄_第1页
第1页 / 共8页
大数据与宏观经济分析研究综述_刘涛雄_第2页
第2页 / 共8页
大数据与宏观经济分析研究综述_刘涛雄_第3页
第3页 / 共8页
大数据与宏观经济分析研究综述_刘涛雄_第4页
第4页 / 共8页
大数据与宏观经济分析研究综述_刘涛雄_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《大数据与宏观经济分析研究综述_刘涛雄》由会员分享,可在线阅读,更多相关《大数据与宏观经济分析研究综述_刘涛雄(8页珍藏版)》请在金锄头文库上搜索。

1、大数据与宏观经济分析研究综述 刘涛雄徐晓飞 内容提要 大数据对宏观经济分析具有革命性的意义 在大数据时代 纷繁 复杂的数据实时可得 整个社会经济产生了根本的变化 大数据在宏观经济分 析应用中最活跃也是最重要的四个领域为 宏观经济数据挖掘 宏观经济预 测 宏观经济分析技术和宏观经济政策 本文对大数据背景下宏观经济数据挖 掘的来源和宏观经济预测方法进行了评述 探讨了大数据分析技术如何将机器 学习算法引入宏观经济分析 利用 LASSO 算法解决 维数灾难 本文还研究 了大数据对宏观经济政策制定的影响 并在此基础上对大数据背景下的中国宏 观经济分析提出了对策建议 认为政府应加大扶持力度 搭建平台 及早

2、建立 基于大数据的宏观经济分析模型 并加强学科和专业教育 关键词 大数据宏观经济数据挖掘机器学习算法 预测 本文为中国博士后科学基金面上项目 大数据与宏观经济现时预测研究 2014M560068 的阶段性成果 一 引言 随着互联网的普及 信息总量正以空 前的速度爆炸性增长 人类社会进入了一 个以 PB 1PB 1024TB 1TB 1024GB 为单位的数据信息新时代 即 大数据时代 大数据 是指巨大而多样化 的数据集 这些数据的处理超出了目前 主流软件的能力 因此必须改进处理数据 的工具 大数据 术语最早可以追溯到 Apache 公司的开源项目 Nutch 一个开源 软件实现的搜索引擎 伴随

3、谷歌的 Ma pReduce 映射和归约 是一种编程模 型 用于大规模数据集的并行运算 和 GFS 可扩展的 Google 文件系统 大数 据不仅代表着数据规模 而且包含了数据 处理的速度 目前一般认为 大数据的 典型特点可以用 4V 即大量化 Vol ume 快速化 Velocity 多样化 Va 75 学科前沿 riety 和价值化 Value 来概括 一是 数据体量巨大 据估计 人类至今生产的 所有印刷材料的数据量大约为 200PB 而 历史上全人类说过的所有的话的数据量大 约为 5EB 1EB 1024PB 当前互联网 上的数据以每年 50 左右的速度增长 人类 90 以上的数据都是最

4、近几年产生 的 到 2013 年 全球存储的数据预计能 达到约1 2 ZB 等于270个字节 约10 亿 TB 二是处理速度快 在如此海量的数 据面前 处理数据的效率就是企业的生 命 社交媒介 移动设备 网上交易和网 络设备更新的速度非常快 巨大的数据流 会导致传统数据分析的软硬件被淘汰 产 生从快速生成数据中实时获取价值的专门 技术和数据分析系统 三是数据类型繁 多 构成大数据的信息类型来源不同 包 括网络日志 音频 视频 图片 地理位 置信息等 其中大概只有约 10 属于结 构化数据适合整齐地进入相关数据库的行 和列 其余 90 是非结构化数据 四是 价值密度低 价值密度的高低与数据总量

5、大小成反比 例如 一部 1 小时的视频 在连续不间断监控过程中 可能有用的数 据只占一两秒时间 如何通过强大的机器 算法更迅速地完成数据的价值 提纯 变得十分重要 也是数据挖掘的关键 大数据正在深刻地影响着整个社会和 经济的发展 从经济分析的角度看 国际 上的大数据研究首先在行业研究 商务分 析和企业应用层面快速发展 并逐渐影响 到经济分析的各个领域 当前 在宏观经 济分析中如何充分利用大数据方法和技术 已经开始在国际上引起重视 从国内的情 况来看 将大数据与宏观经济联系起来的 研究还鲜有见到 宏观经济政策制定者对 此也重视不够 而这正是本综述的目的和 意义所在 二 大数据对宏观经济分析的革命

6、性意义 大数据开启了巨大的时代转型 就宏 观经济分析而言 大数据时代带来的转变 是重大且具有革命意义的 首先 大数据 极大地拓宽了信息来源 大数据时代的重 大变化是海量的可得数据 传统经济分析 依靠的数据主要是样本 而在大数据时 代 得到的数据可能就是总体本身 例如 就物价而言 每一笔在电子商务网站成交 的交易信息都能记录在案 大而全的可得 数据对宏观经济分析是极其重要的 可以 准确了解宏观经济形势 正确做出宏观经 济发展预测 合理制定宏观经济政策 这 些优势是传统经济分析方法无法想象和实 现的 其次 大数据时代信息获得的速度大 大提高 很多信息实时可得 传统的经济 分析主要依靠结构化数据 这

7、些数据最明 显的缺陷就是具有很强的时滞性 例如 政府公布的季度 GDP 往往会有 1 个月的 滞后期 而反映全面经济社会状况的统计 年鉴的滞后期会达到 3 个月左右 这对及 时了解宏观经济形势 预测与预警都是非 常不利的 大数据时代信息产生和传递的 速度空前加快 如互联网上的大量信息是 实时的 移动互联网和物联网使每个人随 时随地都可能制造数据 大数据经济模型 可以充分利用数据的实时性 提高分析或 预测的时效性 为经济预警和政策制定提 供最快速的资料和依据 第三 大数据带来宏观经济分析的方 法论变革 传统的经济计量模型建立在抽 样统计学的基础上 以假设检验为基本模 式 随着信息量的极大拓展和处

8、理信息能 85 国外理论动态 2015 年第 1 期 力的极大提高 经济分析可能从样本统计 时代走向总体普查时代 这一点对宏观经 济分析意义重大 因为宏观经济系统纷繁 复杂 如果能将对整体宏观经济变量的分 析建立在尽可能多的关于经济主体行为的 信息以及其他诸多经济变量的信息的基础 上 甚至抛弃原有的假设检验的模式 无 疑将会极大地提高宏观经济分析的准确性 和可信度 同时 经典计量模型以因果检 验为核心 而大数据分析则往往将相关性 发掘作为首要任务 在复杂的宏观经济系 统中 当许多宏观经济中的因果关系往往 难以准确检验 因果结论经常广受质疑 时 更重视可靠相关关系的发掘 充分利 用相关关系对于经

9、济预测 政策制定与评 估的作用 无疑为宏观经济分析打开了另 一片广阔的空间 正因为如此 维克托 迈尔 舍恩伯格 Victor Mayer Schon berger 与 肯 尼 思 库 克 耶 Kenneth Cukier 认为建立在相关关系分析基础上 的预测是大数据的核心 第四 大数据促进了宏观经济分析技 术的革新 传统的分析技术基于关系型宏 观经济数据 而分析模型主要基于统计数 据 而大数据中的大量信息是非结构化 的 数据的来源和形式复杂多样 如互联 网信息包含文本 图片 影音等多种形 式 在此状况下进行宏观经济分析 有必 要借鉴计算机领域已经出现 但在现有经 济领域还少有应用的数据处理技术

10、 例如 机器学习 机器学习已经在图像识别 语 音识别 自然语言处理 智能机器人等领 域取得了巨大成功 是当前进行大数据分 析的基本手段 此类技术在宏观经济领域 的应用会极大地提高经济分析的能力 改 进分析结果 提升分析价值 另外 传统 的经济计量对海量数据难以分析 发展适 合大数据的分析模型是经济计量面临的重 大挑战 国际学术界和宏观经济政策制定者已 经意识到大数据对宏观经济分析的革命性 影响 将大数据的概念 方法 技术和宏 观经济分析结合起来的做法正逐步得到重 视 一些意义深远的研究工作逐步兴起 综合起来看 这些研究主要集中在宏观经 济数据挖掘 宏观经济预测 宏观经济分 析技术和宏观经济政策

11、四个领域 三 宏观经济数据挖掘 数据挖掘正在成为一个热门行业 简 单地说 数据挖掘就是大数据时代的统计 调查 随着互联网信息技术的逐步发展 获取的数据种类越来越多 数量越来越庞 大 更新速度越来越快 数据中有大量 噪声 存在 显然 传统的统计调查方 法不能适应大数据时代信息收集的需要 比如在内容形式上 互联网上的诸多信息 是以多媒体方式存在的 统计调查无从下 手 面对海量信息 统计调查速度慢 效 率低 因此 充分依靠计算机进行信息收 集的各种新技术应运而生 被称为 数 据挖掘 数据挖掘多在利用网络爬虫软 件的基础上建立机器学习模型 其过程一 般包括 先利用网络爬虫软件将原始信息 从网上抓取下来

12、 然后通过一定方法对这 些数据进行清洗 将大量内容无用的 噪声 过滤掉 保留值得加工的信息 最后对剩下的内容进行加工提取 并转化 为一定程度结构化的可用数据 如标准化 为时间序列等 这一过程已经成为大数据 方法中的标准程序之一 从宏观经济分析 的角度 根据信息来源的种类 数据挖掘 大体可分为两类 95 学科前沿 第一类是对数量信息的收集整理 这 一类工作要解决的问题是信息来源量大面 广和快速更新的问题 比如麻省理工学院 的 10 亿价格项目 The Billion Prices Project BPP 研究团队在经济学家阿 尔伯托 卡瓦洛 Alberto Cavallo 和罗 伯托 瑞格本 R

13、oberto Rigobon 的带领 下 通过 网络抓取技术 web scrap ing 利用网上购物交易数据计算日常通 胀指数 收集世界来自 70 个国家 300 个零售商 共 500 万种在线商品的价格 建立了通胀指数的日发布系统 相比传统 CPI 的月发布机制 10 亿价格项目 仅 有 3 天的滞后期 几乎实现了通货膨胀的 实时预测 第二类是对非数量信息的收集整理 比如如何从文本 图片 视频等素材中挖 掘出结构化 数量化的信息 这类工作除 了要解决前述问题 还面临将非结构化数 据转化为结构化数据这一更困难的艰巨任 务 对一项典型的文本数据挖掘工作而 言 假定任务是从日常的新闻报道中挖掘

14、出媒体对经济的信心指数 那么基本过程 包括四步 第一步是选取部分文本 请 专业人士进行标注以便分类 如可分类为 乐观 中性 悲观 三类 同一个文本 可由三人分别标记 然后采取一定方法来 计算语料标注的一致性 只有通过 方能 被用于观点分类 第二步是对文本进行特 征抽取和选择 特征抽取方法包括基于规 则的特征抽取和基于统计的特征抽取 第 三步是在特征抽取信息的基础上建立分类 器 可同时考虑来源单位 作者身份 文 本性质这三类信息 对已标注文本通过机 器学习 如采用支持向量机算法 建立 分类器 第四步是将此分类器应用于分类 未标注文本 并将分类结果转化为时间系 列数据 数据挖掘是在借鉴众多领域研究

15、思想 的基础上逐步发展的 借鉴了统计学的抽 样估计 人工智能和机器学习的搜索算 法 建模技术和学习理论 还借鉴了信息 论 最优化 可视化 信号处理和信息检 索等思想 目前广为接受的数据挖掘处理 模型是法耶德 Usama Fayyad 等人设计 的多处理阶段模型 利用该模型数据挖 掘 意在集中寻求数据挖掘过程中的可视 化方法 便于人机交互 利用该模型也可 以增强对多媒体数据 文本数据和图像数 据等各种非结构化或半结构化数据挖掘的 准确性 四 大数据与宏观经济预测 大数据时代信息的实时和快速为及时 高效的预测提供了可能 信息的规模庞大 为准确合理的预测提供了机会 大数据背 景下的宏观经济预测将更加

16、有效 实用 国际上利用大数据进行经济分析与预 测取得了一定的进展 BPP 项目利用网上 购物交易数据计算日常通胀指数 例如 BPP 的数据显示 在雷曼兄弟公司 2008 年 9 月倒闭后 大部分美国企业几乎立刻 开始削减价格 这表明总需求已经减 弱 相比之下 官方通胀机构公布的数 据直到当年 11 月 即在 10 月 CPI 数据公 布后 才对通货紧缩有所反应 崔玄英 Hyunyoung Choi 和瓦里安 Hal Varian 介绍了谷歌趋势 Google Trends 如何可以 用来为预测当前经济变量服务 发现失业 和相关福利的搜索可以提高对于失业救济 首次申请时间的预测 阿斯基达斯 N Askitas 和 齐 默 尔 曼 K F Zimmer mann 阿穆里 F D Amuri 以及苏霍 06 国外理论动态 2015 年第 1 期 依 T Suhoy 瑏瑠也发现 互联网搜索可以 预测德国 意大利和以色列有关劳动力市 场的状况 崔玄英和瓦里安以及吴 L Wu 和布林约尔松 E Brynjolfsson 发现 与住房有关的搜索可以改善传统模式对美 国住房销售的预测 瑏瑡韦博 G K

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号