大数据分析报告与可视化

上传人:cn****1 文档编号:478536656 上传时间:2022-08-30 格式:DOCX 页数:22 大小:228.69KB
返回 下载 相关 举报
大数据分析报告与可视化_第1页
第1页 / 共22页
大数据分析报告与可视化_第2页
第2页 / 共22页
大数据分析报告与可视化_第3页
第3页 / 共22页
大数据分析报告与可视化_第4页
第4页 / 共22页
大数据分析报告与可视化_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《大数据分析报告与可视化》由会员分享,可在线阅读,更多相关《大数据分析报告与可视化(22页珍藏版)》请在金锄头文库上搜索。

1、数据分析与可视化1. 什么是数据分析?数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价信 息的一个过程。其过程概括起来主要包括:明确分析目的与框架、数据收集、数据处理、数 据分析、数据展现和撰写报告等6个阶段。1、明确分析目的与框架一个分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分 析师对这些都要了然于心。基于商业的理解,整理分析框架和分析思路。例如,减少新客户 的流失、优化活动效果、提高客户响应率等等。不同的项目对数据的要求,使用的分析手段 也是不一样的。2、数据收集数据收集是按照确定的数据分析和框架内容,有目的的收集、整合相关数据的一个过 程

2、,它是数据分析的一个基础。3、数据处理数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前 必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数 据仓库的搭建和数据质量的保证。数据处理主要包括数据清洗、数据转化等处理方法。4、数据分析数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现 因果关系、内部联系和业务规律,为商业目提供决策参考。到了这个阶段,要能驾驭数据、开展数据分析,就要涉及到工具和方法的使用。其一 要熟悉常规数据分析方法,最基本的要了解例如方差、回归、因子、聚类、分类、时间序列 等多元和数据分析方法的原理、使

3、用范围、优缺点和结果的解释;其二是熟悉1+1种数据分 析工具,Excel是最常见,一般的数据分析我们可以通过Excel完成,后而要熟悉一个专业 的分析软件,如数据分析工具SPSS/SAS/R/Matlab等,便于进行一些专业的统计分析、数据 建模等。5、数据展现一般情况下,数据分析的结果都是通过图、表的方式来呈现,俗话说:字不如表,表 不如图。借助数据展现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议。常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵 图、漏斗图、帕雷托图等。6、撰写报告最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通

4、过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以供商业目的提供参考。一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰, 能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂, 可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结 论,从而产生思考。另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者 是更重要的,否则称不上好的分析,同时也失去了报告的意义,数据的初衷就是为解决一个 商业目的才进行的分析,不能舍本求末。2数据分析常用的方法有哪些?他们多用来分析哪些类型的数据?通过分析

5、可以得到怎样 的结果和结论?怎样得到保证其信度和效度?常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析; 数据分析常用的图表方法:柏拉图(排列图)、直方图(Histogram)、散点图(seatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图。数据分析统计工具:SPSS、mini tab、JMP。常用数据分析方法:1、聚类分析(Cluster Analysis)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似 性,

6、而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中, 人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分 析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析, 所得到的聚类数未必一致。2、因子分析(Factor Analysis)因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中 寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿 尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为 基础的,所不同的是

7、相关系数矩阵对角线上的值,采用不同的共同性口古值。在社会学研 究中,因子分析常采用以主成分分析为基础的反覆法。3、相关分析(Correla tion Analysis)相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系, 并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关 系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量, 则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是 相关关系。4、对应分析(Correspondence Analysis)对应分析(Co

8、rrespondence analysis)也称关联分析、R-Q型因子分析,通过分析由定 性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异, 以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各 元素的比例结构以点的形式在较低维的空间中表示出来。5、回归分析研究一个随机变量Y对另一个(X)或一组(XI, X2,,Xk)变量的相依关系的统计分析 方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系 的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归 分析和多元回

9、归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性 回归分析。6、方差分析(ANOVA/Analysis of Variance)又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本 均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原 因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。 方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响 的变量。数据分析常用的图表方法有: 柏拉图(排列图)排列图是分析和寻找影响质量主原因素的一种工具,其形式用双直角坐标图,

10、左边纵坐 标表示频数(如件数金额等),右边纵坐标表示频率(如百分比表示)。分折线表示累积频 率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左向右排列。 通过对排列图的观察分析可抓住影响质量的主原因素。直方图将一个变量的不同等级的相对频数用矩形块标绘的图表(每一矩形的面积对应于频数)。 直方图(His to gram)又称柱状图、质量分布图。是一种统计报告图,由一系列高度不等 的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。 散点图(sea tter diagram)散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行

11、 拟合。用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联 或总结坐标点的分布模式。鱼骨图(Ishikawa)鱼骨图是一种发现问题“根本原因”的方法,它也可以称之为“因果图”。其特点是简 捷实用,深入直观。它看上去有些象鱼骨,问题或缺陷(即后果)标在鱼头外。FMEAFMEA是一种可靠性设计的重要方法。它实际上是FMA (故障模式分析)和FEA (故障影 响分析)的组合。它对各种可能的风险进行评价、分析,以便在现有技术的基础上消除这些 风险或将这些风险减小到可接受的水平。数据分析统计工具:SPSS: SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操

12、 作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来, 使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择 项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定 的科研工作服务。mini tab: MINITAB功能菜单包括:假设检验(参数检验和非参数检验),回归分析(一 元回归和多元回归、线性回归和非线性回归),方差分析(单因子、多因子、一般线性模型 等),时间序列分析,图表(散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、 概率分布图、边际图、矩阵图、单值图、饼图、区间图、Pare t

13、o、Fishbone、运行图等)、 蒙特卡罗模拟和仿真、SPC(Statistical Process Control -统计过程控制)、可靠性分析(分 布拟合、检验计划、加速寿命测试等)、MSA (交叉、嵌套、量具运行图、类型I量具研究 等)等。JMP: JMP的算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能 力强,使用方便,尤其适合非统计专业背景的数据分析人员使用,在同类软件中有较大的优 势。JMP的应用领域包括业务可视化、探索性数据分析、六西格玛及持续改善(可视化六西 格玛、质量管理、流程优化)、试验设计、生存及可靠性、统计分析与建模、交互式数据挖 掘、分析程序开发

14、等。JMP是六西格玛软件的鼻祖,当年摩托罗拉开始推六西格玛的时候, 用的就是JMP软件,目前有非常多的全球顶尖企业采用JMP作为六西格玛软件,包括陶氏化 学、惠而浦、铁姆肯、招商银行、美国银行、中国石化等等。1 描述性统计分析包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况。 此外,以平均数和标准差来描述市场导向、竞争优势、组织绩效等各个构面,以了解样本企 业的管理人员对这些相关变量的感知,并利用t检验及相关分析对背景变量所造成的影响做 检验。2. Cronbach a信度系数分析信度是指测验结果的一致性、稳定性及可靠性,一般多以内部一致性(consis tency

15、 )来 加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。针对 各研究变量的衡量题项进行Cronbach,a信度分析,以了解衡量构面的内部一致性。一般来 说,Cronbach a仅大于0. 7为高信度,低于0. 35为低信度(Cuieford, 1965), 0.5为 最低可以接受的信度水准(Nunnally, 1978)O3探索性因素分析(exploratory factor analysis)和验讧性因素分析(confirmatory factor analysis)用以测试各构面衡量题项的聚合效度(convergent validity)与区别效度 (discr

16、iminant validity)。因为仅有信度是不够的,可信度高的测量,可能是完全无效或 是某些程度上无效。所以我们必须对效度进行检验。效度是指工具是否能测出在设计时想测 出的结果。收敛效度的检验根据各个项目和所衡量的概念的因素的负荷量来决定;而区别效 度的检验是根据检验性因素分析计算理论上相关概念的相关系数,检定相关系数的95%信 赖区间是否包含1. 0,若不包含1. 0,则可确认为具有区别效度(Anderson,1987)o4. 结构方程模型分析(structural equations modeling)由于结构方程模型结合了因素分析(factor analysis)和路径分析(path analysis),并 纳入计量经济学的联立方程式,可同时处理多个因变量,容许自变量和因变量含测量误差, 可同时估计因子结构

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号