第1讲 Stata的学习背景与学习意义

上传人:s9****2 文档编号:552717575 上传时间:2023-07-21 格式:DOCX 页数:11 大小:127.03KB
返回 下载 相关 举报
第1讲 Stata的学习背景与学习意义_第1页
第1页 / 共11页
第1讲 Stata的学习背景与学习意义_第2页
第2页 / 共11页
第1讲 Stata的学习背景与学习意义_第3页
第3页 / 共11页
第1讲 Stata的学习背景与学习意义_第4页
第4页 / 共11页
第1讲 Stata的学习背景与学习意义_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《第1讲 Stata的学习背景与学习意义》由会员分享,可在线阅读,更多相关《第1讲 Stata的学习背景与学习意义(11页珍藏版)》请在金锄头文库上搜索。

1、统计分析方法与Stata应用(2015年春季学期)第一讲Stata的学习背景与学习意义一、Stata是什么?“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由 “statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。从这 个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分 析和数据处理。经历了三十余年的发展,Stata已经升级到第13.1版(表1),在 不断强化上述功能的同时, Stata 在矩阵运算、绘图、编程等方面的功能也在不 断加强。表1 Stata发展历程版本发布日期版本发布日

2、期13.1Oct-137Dec-0013Jun-136Ja n-9912.1Jan-125Sep-9612Jul-114Ja n-9511.2Mar-113.1Aug-9311.1Jun-103Mar-9211Jul-092.1Aug-9010.1Aug-082.05Apr-8910Jun-072Ju n-889.2Apr-061.5Feb-879.1Sep-051.4May-869Apr-051.3Aug-858.2Oct-031.2May-858.1Jul-031.1Feb-858Ja n-031Ja n-85资料来源:http:/www.S 擅长数据处理、面板数据分析、时间序列分析、生存

3、分析,以及调查数据 分析,但其它方面的功能也并不逊色(表2)。表 2 Stata 的功能一览数据处理和绘图Data managementGraphics统计分析和检验Basic statisticsNonparametrie methodsExact statisticsANOVA/MANOVA其它检验方法和函 数回归分析Linear modelsGLMMLEGMMMulti level mixed modelsPanel dataProbit/Logit/Countrp Time series多变量模型(多元统 计)抽样和模拟分析MultivariatemethodsCluster anal

4、ysisResampling and simulation调查分析和生存分析Survey methodsSurvival analysisEpidemiologists编程Programming languageMa taUser-written commands二、为什么要学习 Stata1. 时代发展的需要:大数据时代的兴起(1)什么是大数据?传统的统计分析常常希望数据多多益善。也就是说,数据越多,分析越深入, 所得的结论就越全面。从字面含义上理解似乎指的是数量庞大信息量巨大的数 据。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的 极大的数据集。超大的数据量只是大数据概

5、念的一个部分。大数据涉及结构化数 据、非结构化数据和半结构化数据这三类数据。 结构化数据通常指的是传统数据库中的数据,利用结构化查询语言 (Structured Query Language,简称SQL)来存取数据以及查询、更新和管理数据 库系统。 非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无 法直接存储到数据库表中,也无法被程序直接使用。二进制图片文件就是非结构化数据的一个典型例子。 半结构化数据介于结构化数据和非结构化数据之间。半结构化数据不具有 严格的结构因而不同于结构化数据。半结构化数据也不同于非结构化数据,它使 用标签和各种标识区分不同的元素,并利用层级结构来定义

6、数据。(2) 理解大数据的概念需要把握4个维度,统称为4V特征。 海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据, 数据量很容易就积累到TB (1012字节)级,甚至跃升至PB (1015字节)级。 多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还 覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。 精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集 到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。 时效性(Velocity)o大数据对时效性要求很高,企业必须能够在短时间内高速、 流

7、畅地处理源源不断产生或流入企业的海量实时数据,方能最大化地显现出大数 据的商业价值。与此同时,大数据还应被归档存储,以备不时之需。(3) 在大数据的范畴下,包含如下方面。 传统商业智能(Traditional Business Intelligence, BI)。传统的商业智能对来自 数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过 运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出 更好的商业决策。 数据挖掘(Data Mining, DM)。数据挖掘是人们对数据进行多角度的分析并 从中提炼有价值的信息的过程。数据挖掘的对象通常是静态数据和归档数据。

8、 统计应用(Statistical Application)o统计应用通常是基于统计学原理利用算法 来处理数据,一般用于民意调查、人口普查以及其他统计数据集。为了更好地估 计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特 征。调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。 预测分析(Predictive Analysis) o预测分析是统计应用的一个分支,人们基于 从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测 预测分析 在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成 高质量的预测结论 预测分析的一个主要目标是为业务流

9、程、市场销售和生产制 造等规避风险并寻求机遇。(4)大数据的商业价值正在得到越来越多的实现和证明。对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库” 中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步 战略。据IBM公司称,全球每天产生2.5亿亿(2.5X1018)字节的数据,当今世 界 90%的数据都是近两年产生的。这些数据来源广泛,有的来自收集气候信息的 传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商 务交易记录,甚至是手机 GPS 信号等。大数据的价值及其重要性已经在一些领域得到了证明。美国国家海洋和大气 管理局(NOAA)、美

10、国国家航空航天局(NASA)、部分制药公司和许多能源公 司正在把大数据技术运用于日常工作并从海量的数据中提取价值。美国国家海洋 和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国 家航空航天局则使用大数据从事航空航天等研究。在大数据的帮助下,制药公司 和能源公司已经在药物测试和地理分析方面得到了实际的效益。纽约时报利 用大数据工具进行文本分析和 Web 挖掘;迪士尼公司则分析了旗下所有店铺、 主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。2. 自身进步的需要 两个政策背景:一个是国家要加大职业技术教育,另一个是取消文理分科。 一个教育背景:人大、北大等名校

11、都开设Stata课。结论:文科生要加强技术方法的学习。3. 为什么选择 StataMinitab SPSSSASSt at aSystat120000-100000-80000-60000-4000020000 -200020052010SoftwareQ)ewqJO(JZQe 山0丄如一一工(DOJZUS0一 mooe)-JaqEnNYear由图可知,SAS比Stata使用更广泛。好了,下面是一张预测图aEM 七 Ds LPEUJ0丄40.000-20.00030.000-_工eo匸0(04-Stata:一一IPR三、如何学习 Stata?1. 三门基础课 微积分、线性代数、概率论与数理统计

12、,缺一不可。基础有多重要?有一句广告词:Its only about Fundamentals.你只需做好基本功。基础打好了,学习统计、 计量,真的势如破竹;如果基础不行,想要有多难,就有多难。1.1 微积分。推荐教材:同济六版高等数学,国内相关的参考资料非常丰 富,内容详略基本得当,也比较流行。想比较有深度的,可以看史济怀、常庚哲 的数学分析(高等教育出版社, 2012)。1.2 线性代数。1.3 概率论与数理统计。1.4 基础课程的系列教材,如果能找到视频,就更好了。比如吉林大学陈殿友的线性代数高等数学麻省理工的Gilbert Strang的线性代数,中科大的缪 柏其概率论与数理统计,中科

13、大史济怀或复旦陈纪修的数学分析,都是极 好的。不过要真看完你就研究生毕业了(如果你是两年制的研究生)。另外,我 觉得有些考研的数学视频也是不错。个人觉得 Strang 的线代超赞,但适合先经历一次国内教材和教授方式的“洗 脑”,你就觉得老外讲得真心好!没有比较的话,你会发现线代永远是那么的抽 象。2Stata 图书1. 应用STATA做统计分析便新至STATA10.0版)(劳伦斯汉密尔顿著,郭志 刚等译,重庆大学出版社,2011)。2. 社会统计分析与数据处理技术:STATA软件的应用(杨菊华,中国人民大 学出版社, 2008)我个人觉得是最适合入门的教材。3. 数据管理与模型分析:STATA

14、软件应用(杨菊华,中国人民大学出版社, 2012)。4. 陈强-高级计量经济学及 Stata 应用 第二版5. 人大陈传波 stata 十八讲6. 现代医学统计方法与 Stata 应用_第二版(陈峰)(1)网络资源 值得一提的有如下几个:Stata官方网站。Stata公司提供的Web resources,涵盖了大量相关网络资源; 其 FAQ 则提供了各种常见问题的解答 Statalist 则是一个类似于人大经济论坛 的免费的讨论区。加入 Statalist 的方法很简单,你只需要发送邮件至,邮件 内容无需任何称谓,只需写上“subscribe Statalist”的字样即可。接到确认 信息后,你便成为一名 Statalist 的成员了。当然,即使不加入,你仍然可以 浏览,但不能提问。 majordomohsphsun2.harvard.eduStatawebsite: http:/www.S导航图Sata resources: http:/www.S (大量网 络教程链接)Stata journal: http:/www.S library: http:/www.ats.ucla.ed

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号