商务智能实训实验报告

资源描述

《商务智能实训实验报告》由会员分享，可在线阅读，更多相关《商务智能实训实验报告（131页珍藏版）》请在金锄头文库上搜索。

1、商务智能实训实验报告组长：李承冲 2012211195组员：姜俏南 2012211172 刘启丽 2012211171贾晓锋 2012211173王昱 2012211194陆为 2012211180班级：0311203组长：李承冲成员完成的任务及工作量组长评定成绩姜俏南运行代码的编写,Apriori与K均值算法的简介伪代码特点等90刘启立Bays算法的介绍、业务流程及伪代码、最新改进及最新应用情况、参考文献等85贾晓锋文档编写汇总；Knn算法的介绍、分析、最新改进或最新应用情况等90王昱BP算法的介绍、步骤解析、算法特点等85陆为ID3算法的流程、不足及改进、参考文献等83一、BP算法

2、- 1 -1.算法介绍- 1 -2.BP网络的解析步骤- 3 -3.运行的可视结果- 4 -4.算法特点分析- 4 -5.发展趋势- 6 -6.参考文献- 6 -二、Apriori算法- 6 -1.算法介绍- 6 -2.算法流程- 6 -3.运行的可视结果- 7 -4.最新改进或最新应用情况- 9 -5.参考文献列表- 9 -三、Bays算法- 10 -1.算法介绍- 10 -2.伪代码及流程- 10 -3.运行的可视结果- 11 -4.最新改进及最新应用情况- 12 -5.参考文献列表- 12 -四、ID3算法- 13 -1.算法介绍- 13 -2.流程- 13 -3.运行的可视结果- 13

3、 -4.不足及改进思路- 13 -5.参考文献列表- 14 -五、kNN算法- 14 -1.算法介绍- 15 -2.算法流程- 15 -3.运行的可视结果- 15 -4.算法特点分析- 16 -5.最新改进或最新应用情况- 16 -六、 K均值算法- 17 -1.算法介绍- 17 -2.流程- 17 -3.运行的可视结果- 18 -4.最新改进或最新应用情况- 21 -5.参考文献列表- 21 -附录- 21 -1.BP算法代码- 22 -2.Apriori算法代码- 52 -3.Bays算法代码- 61 -4.ID3算法代码- 91 -5.kNN算法代码- 100 -6.K均值算法代码- 1

4、03 -一、BP算法1.算法介绍典型的BP网络分为三层（图4.4），即输入层、隐含层和输出层。其算法主要由以下四部分组成，即模式顺传播误差逆传播记忆训练学习收敛。 1)模式顺传播设样本输入向量，输出向量中间单元的输入向量，输出向量输出层的输入向量，输出向量其中，为样本数。12p1qana1a2c1cqy1yqnpqw11w12v11v12SpBpLqCq输入层到中间层的权，中间层到输出层的权，中间层阈值，输出层阈值，中间层输入：，输出：，输出层输入：，输出：，2)误差的逆传播根据输出层产生的误差，经中间层向输入层传播，在这个过程中，按照梯度下降原则对各层的权值和阈值进行误差校正。输出层计算：

5、权值调整量计算：第k模式(样本)下，网络的输出误差的均方值为，因为，所以，上式即为权值变化对均方值误差的影响程度，按梯度下降原则应使权值调整量与的负值成比例变化，即其中，。阈值调整量计算：因为，所以，按照梯度下降原则，可得到输出层各单元的阈值调整量为：中间层到输入层计算：权值调整量计算：按照梯度下降原则，可得到连接权值的调整量为：阈值调整量计算：按照梯度下降原则，可得到输出层各单元的阈值调整量为：以上的推导是标准误差逆传播算法，即各连接权的调整量是分别与各个学习模式对的误差Ek成比例变化的。而相对于全局误差的连接权调整，是在所有m个学习模式全部提供给网络后统一进行的，这种算法是累积误差逆传播算

6、法。一般来讲，当样本较少时，累积误差传递算法要比标准误差传递算法速度快一点。3)记忆训练给出一组样板反复进行学习，调整权值和阈值的大小以使输出值满足一定的精度要求。4)学习收敛经过多次训练以后，网络的全局误差趋向于最小值。由于BP算法采用了按误差函数梯度下降的方向进行收敛，因此，可能使迭代陷入局部极小点，BP网络收敛依赖于样本的初始位置，适当改变隐层单元个数，或给每个权值加上一个很小的随机数，都可使收敛过程避免局部极小点。2. BP网络的解析步骤（1）初始化给权值、和阈值、赋予(-1, 1)之间的随机值。（2）随机取一对样本对网络进行训练（3）计算中间层的输入/出输入：，输出：（4）计算输出层

7、的输入/出输入：，输出：（5）计算输出层的一般误差（6）计算中间层的一般误差（7）修改输出层的权值和阈值（8）修正隐层的权值和阈值（9）取下一对样本返回（3）开始训练，直到m个样本训练结束（10）判断全局误差是否小于预定值，否则，回到（2）重新进行训练，直到满足要求或达到预定训练次数，停止训练。3. 运行的可视结果4. 算法特点分析人工神经网络（Artificial Neural Network）又称连接机模型，是在现代神经学、生物学、心理学等学科研究的基础上产生的，它反映了生物神经系统处理外界事物的基本过程，是在模拟人脑神经组织的基础上发展起来的计算系统，是由大量处理单元通过广泛互联而构成的

8、网络体系，它具有生物神经系统的基本特征，在一定程度上反映了人脑功能的若干反映，是对生物系统的某种模拟，具有大规模并行、分布式处理、自组织、自学习等优点，被广泛应用于语音分析、图像识别、数字水印、计算机视觉等很多领域，取得了许多突出的成果。最近由于人工神经网络的快速发展，它已经成为模式识别的强有力的工具。神经网络的运用展开了新的领域，解决其它模式识别不能解决的问题，其分类功能特别适合于模式识别与分类的应用。多层前向BP网络是目前应用最多的一种神经网络形式, 它具备神经网络的普遍优点，但它也不是非常完美的, 为了更好的理解应用神经网络进行问题求解, 这里对它的优缺点展开一些讨论。首先BP神经网络具

9、有以下优点：1) 非线性映射能力：BP神经网络实质上实现了一个从输入到输出的映射功能，数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。这使得其特别适合于求解内部机制复杂的问题，即BP神经网络具有较强的非线性映射能力。2) 自学习和自适应能力：BP神经网络在训练时，能够通过学习自动提取输出、输出数据间的“合理规则”，并自适应的将学习内容记忆于网络的权值中。即BP神经网络具有高度自学习和自适应的能力。3) 泛化能力：所谓泛化能力是指在设计模式分类器时，即要考虑网络在保证对所需分类对象进行正确分类，还要关心网络在经过训练后，能否对未见过的模式或有噪声污染的模式，进行正确的分类。也即

10、BP神经网络具有将学习成果应用于新知识的能力。4) 容错能力：BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响，也就是说即使系统在受到局部损伤时还是可以正常工作的。即BP神经网络具有一定的容错能力。鉴于BP神经网络的这些优点，国内外不少研究学者都对其进行了研究，并运用网络解决了不少应用问题。但是随着应用范围的逐步扩大，BP神经网络也暴露出了越来越多的缺点和不足，比如：1) 局部极小化问题：从数学角度看，传统的 BP神经网络为一种局部搜索的优化方法，它要解决的是一个复杂非线性化问题，网络的权值是通过沿局部改善的方向逐渐进行调整的，这样会使算法陷入局部极值，权值收

11、敛到局部极小点，从而导致网络训练失败。加上BP神经网络对初始网络权重非常敏感，以不同的权重初始化网络，其往往会收敛于不同的局部极小，这也是很多学者每次训练得到不同结果的根本原因。2) BP 神经网络算法的收敛速度慢：由于BP神经网络算法本质上为梯度下降法，它所要优化的目标函数是非常复杂的，因此，必然会出现“锯齿形现象”，这使得BP算法低效；又由于优化的目标函数很复杂，它必然会在神经元输出接近0或1的情况下，出现一些平坦区，在这些区域内，权值误差改变很小，使训练过程几乎停顿；BP神经网络模型中，为了使网络执行BP算法，不能使用传统的一维搜索法求每次迭代的步长，而必须把步长的更新规则预先赋予网络，

12、这种方法也会引起算法低效。以上种种，导致了BP神经网络算法收敛速度慢的现象。3) BP 神经网络结构选择不一：BP神经网络结构的选择至今尚无一种统一而完整的理论指导，一般只能由经验选定。网络结构选择过大，训练中效率不高，可能出现过拟合现象，造成网络性能低，容错性下降，若选择过小，则又会造成网络可能不收敛。而网络的结构直接影响网络的逼近能力及推广性质。因此，应用中如何选择合适的网络结构是一个重要的问题。4) 应用实例与网络规模的矛盾问题：BP神经网络难以解决应用问题的实例规模和网络规模间的矛盾问题，其涉及到网络容量的可能性与可行性的关系问题，即学习复杂性问题。5) BP神经网络预测能力和训练能力

13、的矛盾问题：预测能力也称泛化能力或者推广能力，而训练能力也称逼近能力或者学习能力。一般情况下，训练能力差时，预测能力也差，并且一定程度上，随着训练能力地提高，预测能力会得到提高。但这种趋势不是固定的，其有一个极限，当达到此极限时，随着训练能力的提高，预测能力反而会下降，也即出现所谓“过拟合”现象。6） BP神经网络样本依赖性问题：网络模型的逼近和推广能力与学习样本的典型性密切相关，而从问题中选取典型样本实例组成训练集是一个很困难的问题。5.发展趋势BP神经网络算法自20世纪80年代提出以来，已经经过了20余年。除了神经网络理论得到了进一步的发展以外，神经网络的应用成果也日益丰富。神经网络今后发

14、展的一个方向是将其成功地应用于生产、生活的各个方面，发挥其信息处理能力，扩展其应用范围。6.参考文献http:/ = find_frequent_1-itemsets(D);for (k=2;Lk-1 ;k+) Ck = apriori_gen(Lk-1 ,min_sup); foreachtransaction t /scan D for counts Ct = subset(Ck,t);/get the subsets of t that are candidates for each candidate c Ct c.count+; Lk =c Ck|c.countmin_supreturn L= k Lk;

展开阅读全文