数据处理分析方法综述

上传人:工**** 文档编号:491823443 上传时间:2023-07-06 格式:DOC 页数:40 大小:1.32MB
返回 下载 相关 举报
数据处理分析方法综述_第1页
第1页 / 共40页
数据处理分析方法综述_第2页
第2页 / 共40页
数据处理分析方法综述_第3页
第3页 / 共40页
数据处理分析方法综述_第4页
第4页 / 共40页
数据处理分析方法综述_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《数据处理分析方法综述》由会员分享,可在线阅读,更多相关《数据处理分析方法综述(40页珍藏版)》请在金锄头文库上搜索。

1、US第一章绪论#马克思主义哲学告诉我们,世间一切事物都具有质和量两种规定性。质是事物的内在规定性,它是一切事物区别于其他事物的依据,质与事物是“直接同一”的,而且这种内在的质,又可“表现于外”,即在与其他事物的关联中表现出各种各样的“属性或特征”。量是事物所固有的、反映事物存在与发展的量方面特性的规定性(例如规模、程度、水平、速度、关系、结构比例、效率等)。这种量方面的规定性虽是客观存在地,但它与事物不具有“直接同一性”,即同一事物的量允许在一定范围内变动,而其“质”不会改变。由于事物的质与量统一于一定的“度”中,人类对事物的认识必须首先获得一定的质的认识,然后在此基础上,需要进一步去考察量,

2、以求得对事物的“质”有更清晰、更准确的把握。这是认识的深化与精细化。只要我们对事物的量的规定性尚未达到精确程度之前,对质的认识都只能说是粗略的、不彻底的。我们认为,教育技术学研究资料统计处理的存在意义是通过对教育现象总体进行量的研究,以“量的规定性”去认识“质的规定性”。数据分析的方法很多,包括回归分析,方差分析,主成分分析,典型相关分析,判别分析,聚类分析等。数据分析需要处理大量的数据,进行复杂的运算,因此计算机和现代统计软件但是用似乎上必不可少的。MATLAB是用来处理数据分析中需要处理的大量数据的。MATLAB是美国MATHWORKS公司自20世纪80年代中期推出的数学软件,优秀的数值计

3、算能力和卓越的数据可视化能力使其很快在数学软件中脱颖而出。到目前为止,其最高版本7.1版已经推出。随着版本的不断升级,它在数值计算及符号计算功能上得到了进一步完善。MATLAB已经发展成为多学科、多种工作平台的功能强大的大型软件。MATLAB的主要特点是:有高性能数值计算的高级算法,特别适合矩阵代数领域;有大量事先定义的数学函数,并且有很强的用户自定义函数的能力;有强大的绘图功能以及具有教育、科学和艺术学的图解和可视化的二维、三维图;基于HTML的完整的帮助功能;适合个人应用的强有力的面向矩阵(向量)的高级程序设计语言;与其它语言编写的程序结合和输入输出格式化数据的能力;有在多个应用领域解决难

4、题的工具箱。11研究背景在科学研究活动中,要得出定量的结论,必须运用数学语言。马克思指出:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”。学研究的计量化过程,经历过三个主要发展阶段,即从精确数学到随机数学,到现代的模糊数学。教育技术学研究资料统计处理技术,有机地结合了统计方法USFh和统计软件及其在教育技术学研究中的应用。过去,有人将统计方法(尤其是高步骤。统计处理能为教育技术学研究提供了大量的数据与资料,这还体现在数据的准确性、完整性与系统性上。通常我们利用统计处理技术,去除原始数据中的无效信息,在分析统计结果的基础上,确定关于某个研究问题的一般属性和特殊属性,从而去证实或证伪

5、一个假设。12研究意义信息时代的工作中,我们大都要使用通用的或专门的软件分析数据。软件的大量应用有着深厚的数学理论背景。在理论研究中,大量的数据有着不同数据分析方法。数据分析就是分析和处理楚剧的理论与方法,从中获得有用的信息。从这个意义上讲,数据分析不存在固定的解决方法,分析和目的和分析的方法不同,会从同一数据中发觉出各种有用的信息。13目前常用的数据处理方法简述数据处理方法的理论:频率直方图、茎叶图、五数概括图、箱线图的含义和绘制方法;主成分分析方法;方差分析法;回归分析法;参数和非参数估计方法等。本文中运用图形和数据运算的方法对复杂的数据进行处理,如预处理中的频率直方图、茎叶图、五数概括图

6、等,以及数据分析方法中的方差分析法;回归分析法等。14本文主要工作统计方法,是研究简缩数据并描述这些数据的统计方法。用数据处理方法的理论:频率直方图、茎叶图、五数概括图、箱线图的含义和绘制方法;主成分分析方法;方差分析法;回归分析法;参数和非参数估计方法等将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。#西华大学毕业论文US第二章常用数据处理方法理论简介21主成分分析法主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最

7、佳综合简化,也就是说,对高维变量空间进行降维处理。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为x,x,xx,主成分分析就是要把这p个指标的问题,转变为讨论123pp个指标的线性组合的问题,而这些新的指标FF2,F3F(kWp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻

8、求原指标的线性组合f。F=uX+uX+uX1111212p1pF=uX+uX+uX2121222p2pF=uX+uX+uXp1p12p2ppp满足如下的条件:u2+u2+u2=11i2ipi主成分之间相互独立,即无重叠的信息。即Co(F,F)=0,i主j,i,j=1,2,pij主成分的方差依次递减,重要性依次递减,即Va(F)Var(F)Var(F)12p211第一主成分设X的协方差阵为USa2a112aa2刀=21.2x:a1pa2paaa2p1p2p由于工x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得入1UXU=X0其中XI,尢2,Xp为工X的特征根,不妨假设X1X2

9、.Xp。而U恰好是由特征根相对应的特征向量所组成的正交阵。U(u,u)1pU=C,u,u);io.pi1i2ipiiP设有P维正交向量(a,a,a)1121p1a1F1aX+aX111p1=aXV(F)ahaaU1a1u1,u2,X1X2p工i=1Xi(aui)2u11u21up1Uau12u22up2u1 pu2 pupp1a1X乙auuaX乙(au)21ii1ii1i1XaUUaXaaX111=u1us时,即Fi=uii叭+时,有最大的方差入。因为Var(F)=uZx11=X11#西华大学毕业论文#西华大学毕业论文212第二主成分=XX(uu)2i2ii=1V(F)=uZu=Xluuuui

10、2ii2=X2F=uX+uX+uX2121222p2pXX0。12p第二步:求出分别所对应的特征向量U=(u,u,u)i1i2ipi第三步:计算累积贡献率,给出恰当的主成分个数。F=UX,i=1,2,,k(kp)ii第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:X*=X一X=C-x,x-x,x-x)ii1i12i2pip代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。2.2方差分析法为了分析研究对象总体的特征,不必对总体中每一个单位都进行研究。而是通过抽样方法,按照随机性原则,从全部对象中,只抽取部分单位(样本组)加以研究,对于每组样本,首先应对

11、其基本特征参数进行计算,以给出整体特征的US统计描述。并根据统计数据,对总体对象作出具有一定可靠程度的估计和推测。常用的特征参数包括:2.2.1集中量数(1)算术平均数,用表示,设X,X,X.X为各次观123n察的结果,则有:x=x1,x2,x3xnn上式中,X表示平均值x(i=1,2.n)表示每个样品值,n表示样品数。(2)中数,是指一组按大小顺序排列起来的量数中的中间点的数,又称中位数,用Median来表示。(3)众数,是指一列数中出现次数最多的数值,常用M表示。工Xi=1n2.2.2 差异量数差异量数是表示量数之间的差异程度的一些统计量的总称,它是用以表示一群量数的离散情况或离中趋势。集

12、中量数在量尺上是一个点,表示各量数所在的位置。差异量数在量尺上是一段距离,表示一个量数与另一个量数或中心点之间的距离。只有知道了差异量数的大小,才能了解集中量数的代表性如何。差异量数愈大,集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。在统计分析中经常应用的是标准差,它是与平均数的差数的平方和的平均数的算术平方根。s工(X-x)2in上式中,s为标准差di=Xi-X,为每个样品的值与平均值的离差,上述公式计算步骤如下:(1)先求出各数据与平均分的离差J=Xi-X;(2)求各个离差的平方和工d2;(3)将工d2除以n再开方,即得标准差。i2.2.3标准分数标准分数,又称Z分数。是以标

13、准差为单位表示一个分数在团体分数中所处的位置标准分数的计算公式:z=公式中x代表原始值X代表平均值,S代表标准差。次数分布又称次数分配。是指总体或样本按随机变量(数据)大小次序在出现频率上的排列。一般采用次数分布表、次数分布直方图或次数分布曲线来表示。23回归分析法所谓回归分析法,是在掌握大量观察数据的基础上,建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。回归分析是研究一个随机变量与一个(或多个)普通变量之间的相互关系的统计方法.它的主要方法是:建立有相关关系的变量之间的数学表达式即经验公

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号