基于应用数理统计的计算机数据挖掘中应用毕业论文

上传人:工**** 文档编号:488273157 上传时间:2023-09-15 格式:DOC 页数:8 大小:78.02KB
返回 下载 相关 举报
基于应用数理统计的计算机数据挖掘中应用毕业论文_第1页
第1页 / 共8页
基于应用数理统计的计算机数据挖掘中应用毕业论文_第2页
第2页 / 共8页
基于应用数理统计的计算机数据挖掘中应用毕业论文_第3页
第3页 / 共8页
基于应用数理统计的计算机数据挖掘中应用毕业论文_第4页
第4页 / 共8页
基于应用数理统计的计算机数据挖掘中应用毕业论文_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《基于应用数理统计的计算机数据挖掘中应用毕业论文》由会员分享,可在线阅读,更多相关《基于应用数理统计的计算机数据挖掘中应用毕业论文(8页珍藏版)》请在金锄头文库上搜索。

1、基于应用数理统计的计算机数据挖掘中应用摘 要: 本文是介绍一种基于应用数理统计的在计算机数据挖掘中的应用方法,并提出统计模型和对模型进行分析与求解,并根据统计模型的的求解结果进行分析,从中提取有用的信息,以此达到数据挖掘。Abstract :This article is based on an application of mathematical statistics in computer applications in data mining methods and statistical model and the model for analysis and solution, a

2、ccording to the statistical model for the results of the analysis, from the extraction of useful information in order to achieve Data Mining关键字:数据挖掘 DataMining 聚类 线性回归分析Keyword: data mining DataMining cluster linear regression analysis一 前 言数据挖掘(DataMining)可以理解成计算机的一个方面,它是从我们所拥有的大量的数据中找出有用信息的一种技术。众所周

3、知,分析、处理数据的传统学科是统计学。统计学的方法应该可以被利用来处理这些数据,问题是我们所面临的这些海量数据并不满足统计学的概率模型。如何成功地对这样的数据进行分析,对今后的信息处理技术具有重大的意义,这就是近年来发展起来并倍受关注。二 问题的引入社会各个方面都对数据库进行了广泛的应用,所以都积累了大量的数据,这些数据的内在联系可能就是有价值的知识,运用数据仓库技术,发现并提取这些知识,成了各个企业的首先的任务。 数据挖掘就是从大量的数据中提取隐含的、未知的、对决策有潜在价值的知识和规则的过程,它的主要技术包括聚类,粗糙集,关联规则、统计分析、神经网络、模糊数学等。数理统计学是一门关于数据资

4、料的收集、整理、分析和推理的科学,在时下的数据挖掘热潮中,数理统计方法是最有效而且最实际的方法如何从大量的计算机计算和检测到的数据中挖掘出最由价值的信息(数据),并且对数据进行分析与分类,最后建立出回归方程,以此了解整个整个数据的变化与规律。三 统计模型以及分析3.1 数据挖掘的过程数据取样Sample数据探索Explore数据调整Modiey评价Assess模式化Model聚类分析和因子分选可视数据探索添加和拆分记录数据重组数理统计分析决策树模型时间序列分析人工神经元网络数据修改?新问题?结论综合和评价 图一:数据仓库流程在这五个步骤中,模式化是数据挖掘的核心,用的最广泛又最为经典的模式化方

5、法当数数理统计分析,一般情况下,在数据库或数据仓库字段之间存在两种关系:函数关系(能用函数公式表示的确定关系)和相关关系(不能用函数公式表示,但仍是相关确定关系),对它们可进行回归分析、相关分析、主成分分析。3.2 数据挖掘模型的建立为了分析数据仓库中的数据关联性,需进行多元线性回归分析和利用相关系数表进行特征值与特征向量分析,以确定主成分:从数据仓库中抽取随机变量y及m个自变量x0,x1,,xm-1,给定n但观测数据(x0i,x1i,xm-1,i,yi)(i=0,1,n-1),用线性表达式: ,其中a,b是线性回归系数,对线性回归方程进行逐步回归分析.四 数据模型求解4.1 最小二乘法原理

6、如果把用回归方程 计算得到的 i值(i=1,2,n)称为回归值,那么实际测量值yi与回归值 i之间存在着偏差,我们把这种偏差称为残差,记为ei(i=1,2,3,n)。这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。残差平方和定义为: 所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线 是在所有直线中与测量值残差平方和Q最小的一条。由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小值总是存在的。下面讨论的a和b的求法。 4.2 正规方程组 根据微分中求极值的方法可知,Q(a,b)取得最小值应满足 由上式,并考虑上述条件,则 称为正规方程组

7、。解这一方程组可得 其中 式中,Lxy称为xy的协方差之和,Lxx称为x的平方差之和。 如果改写(2-1-1)式,可得 或 由此可见,回归直线是通过点 的,即通过由所有实验测量值的平均值组成的点。从力学观点看, 即是N个散点 的重心位置。 4.3一元线性回归的统计学原理 如果X和Y都是相关的随机变量,在确定x的条件下,对应的y值并不确定,而是形成一个分布。当X取确定的值时,Y的数学期望值也就确定了,因此Y的数学期望是x的函数,即 E(Y|X=x)=f(x) 这里方程f(x)称为Y对X的回归方程。如果回归方程是线性的,则 E(Y|X=x)=+x 或 Y=+x+ 其中 随机误差 从样本中我们只能得

8、到关于特征数的估计,并不能精确地求出特征数。因此只能用f(x)的估计式 ,用参数a和b分别作为和的估计量。那么,这两个估计量是否能够满足要求呢? 1. 无偏性 把(x,y)的n组观测值作为一个样本,由样本只能得到总体参数和的估计值。可以证明,当满足下列条件: (1)(xi,yi)是n个相互独立的观测值 (2)i是服从 分布的随机变量 则由最小二乘法得到的a与b分别是总体参数和的无偏估计,即 E(a)= E(b)= 由此可推知 E( )=E(y) 即y是回归值 在某点的数学期望值。 2. a和b的方差 可以证明,当n组观测值(xi,yi)相互独立,并且D(yi)=2,时,a和b的方差为 以上两式

9、表明,a和b的方差均与xi的变动有关,xi分布越宽,则a和b的方差越小。另外a的方差还与观测点的数量有关,数据越多,a的方差越小。因此,为提高估计量的准确性,xi的分布应尽量宽,观测点数量应尽量多。五 结果分析根据一元线性回归的方程并利用方差分析和主分析法把把特征值从大到小排列,求出累计贡献在70%左右的前几个特征值,这几个特征值就是主成分,确定影响总体样本数据的主要因素。然后进行结论评价,如果结论不合理,再进行数据抽取,利用以前的方法进行再分析,直至结论合理有效。该挖掘软件由VC6.0开发,在WIN98操作系统和oracles数据库平台上测试通过。六 参考文献1 盛骤,谢千式,潘承毅.概率论

10、与数理统计(第三版).北京:高等出版社,20012 袁荫堂.概率论与数理统计(修订版).北京:中国人民大学出版社,19903 肖亮壮,谭锐先. 概率论与数理统计(第一版).北京:国防工业出版社 19804 孙清华,赵修德.新编概率论与数理统计题解(第一版).武汉:华中科技出版社,20015 魏宗舒. 概率论与数理统计(第一版).北京:高等出版社,19986 邵峰晶,于忠清. 数据挖掘原理与算法.北京:中国水利水电出版社,20037 邓纳姆(Dunham,M.H.).数据挖掘教程.北京:清华大学出版社,20058 Micheline Kamber. 数据挖掘概念与技术. 北京:机械工业出版社,20079陈文伟,黄金才,赵新昱.数据挖掘技术. 北京:北京工业大学出版社,20041

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号