优化建模技术和机器学习理论的新发展

资源描述

《优化建模技术和机器学习理论的新发展》由会员分享，可在线阅读，更多相关《优化建模技术和机器学习理论的新发展（8页珍藏版）》请在金锄头文库上搜索。

1、1优化建模技术和机器学习理论的新发展摘要摘要化工、炼油、冶金等制造业生产过程、新产品研制，以及经营管理的优化能给企业带来巨大的经济效益。优化成功的前提是需要建立能预报优化控制条件的数学模型。用机器学习技术从已有的数据中抽提出有用信息，是建立有效数学模型的关键。本文回顾了优化建模技术及其理论基础的几个发展阶段，指出从线性建模到非线性建模，从追求经验风险极小化到追求实际风险极小化，从采用单一算法到建立多种算法相结合的信息处理平台，从单纯根据古典统计数学到参照新发展的统计学习理论，使优化建模技术由粗到精，由低级到高级，在生产过程、新产品研制和经营管理的优化中发挥更大作用。关键词关键词

2、化工；优化；建模NEW PROGRESS OF TECHNOLOGY OF MODELLING AND THEORY OF MACHINE LEARNINGAbstract The optimization of industrial production process, preparation of new products and enterprise management can make large economic profit for the enterprises dealing with the production of chemical, petrochemical or

3、 metallurgical products. The key problem of optimization works is to make models for the prediction of optimal condition of production, testing or management. So it is necessary to extract useful information from known data sets. In this paper, the history of development of optimization technology i

4、s reviewed. It is emphasized that the change from linear modeling to nonlinear modeling methods, the change from empirical risk minimization to real risk minimization, and the change from traditional statistical mathematics to newly proposed statistical learning theory, are the chief trends making m

5、odelling and optimization technology more advanced and more effective for improvement of the works in modern enterprises. Keywords: Chemical industry, optimization, modelling现代化工、炼油、钢铁等大、中型企业的生产过程包括复杂的物理、化学变化，这些变化必须靠多种数据指标的监控，才能使生产的综合效益达到最优。现代企业的集约经营也要以多种数据为基础才能正确决策。这都需要从大批复杂数据中抽提有用信息，建立反映客观规律的数学

6、模型。采用计算机数据处理技术，进行“机器学习”(Machine learning)，是建立数学模型的必要手段。新产品开发是现代企业活力的重要泉源。新品试制通常需要作大批实验。如能缩短新产品的研制周期，常能给企业带来重大经济效益。通过在试制过程中建立数学模型，进行试验设计，常能较快地达到研制目标，使新产品能更快投产。生产过程难免有时出现故障，在出现故障时能及时发现，正确诊断其原因从而消除故障，也要靠总结故障出现的规律，建立发现、诊断故障的数学模型，从而顺利处理故障，恢复正常生产。产品质量和信誉是现代企业的生命线，许多产品的质量要在长期使用中才能显露出来。为了保证产品质量和可靠性

7、，还必须把好产品检验关。如何能从短期测量察觉产品长期性能？这也需要通过数据处理，找出短期测试指标和长期使用特性的关联，建立数学模型，使产2品检验更加有效。必需强调指出：虽然上述几个方面都需要通过机器学习建立数学模型，但各个方面供应的数据特点各异，数据处理的难点也不同，不可能千篇一律用统一的计算策略去解决。举例：企业管理和经营需要的数学模型要从极大量数据资料中总结规律（迄今我们处理的数据最多的项目来自某跨国公司优化产品维修管理工作的委托，该项目要求从一百多万套数据中总结规律），而新产品开发与此相反，希望从尽量少的实验数据中就能总结出下一步应该作什么条件实验效果最好。又如：工业生产

8、记录难免有较多的“信息垃圾” （包括物料不平衡、生产不稳定、仪表出错等造成的不反映问题本质的数据），因此“去噪”就成为大问题。而试验设计一般不需要去噪。如此等等。这就要求我们建立一个能应付各种不同要求的“算法库” 和“软件模块库” ，以应付各种不同的需要。所有这些都说明：各种数据处理方法和各种数学模型的建立与正确运用，是现代企业生存和发展不可或缺的重要环节。我国大中型企业的信息管理经历着一个从粗放到精细的过程。多数企业迄今的信息管理系统及其运用与国际上的现代企业尚有差距。在我国“入关”和国际竞争日益加剧的今天，加强包括数据处理在内的信息管理，已经是刻不容缓之举(1)。另方面，今

9、天许多国内大中型企业纷纷建立信息网络和数据库，安装 DCS 系统，实现了先进控制，又已为我国企业采用更先进的优化控制技术创造了有利条件。我国化工、炼油企业开展优化工作的历史，可以追溯到三十余年前。当时我国化工界曾用线性回归法总结生产规律以改进操作，在若干化工、炼油厂取得了改进生产的显著效果。多年来，线性回归、正交设计等传统优化技术在我国工业界深入人心，广泛采用，起到了对原来较粗放的生产技术相当大的改进作用。但是多数化工、炼油、冶金等生产过程都或多或少带有非线性，都将其当成线性问题处理难免有偏差，其优化效果也就受很大限制。从上世纪八十年代开始，能处理非线性的人工神经网络和多种模式

10、识别分类方法出现在优化领域，使优化控制效果提高了一步。我们和我国石化、钢铁、有色冶金等企业合作，也解决了一大批生产优化问题，取得了相当大的经济效益(2)(3)。但使用时间一长，也暴露了这些做法的不足之处。首先，当时的多数工作都基于靠人工控制的离线调优，技术管理粗放，优化见效后较难坚持，特别是当原料改变、设备大修、原有的数学模型不再适用以后，优化效果多半难以为继。而近年来一些建模以后建成优化（开环指导或在线控制）专家系统的优化项目则坚持较好。这说明优化工作不能仅仅停留在科研合作的形式中，必须采取工程化的方式才行。这一阶段工作暴露的另一缺点，就是在建模和应用中遇到过拟合问题，其中人工

11、神经网络的过拟合尤其严重。可惜时至今日，尚有不少技术人员只了解人工神经网络能处理非线性数据集的突出优点，而没有注意到它在已知样本较少、数据点分布不均匀、噪声较大时过拟合可能造成预报的严重失误。我们曾推行的以分类为基础的模式识别优化方法过拟合虽然相对小些，但单靠分类而不对目标值定量预报，也有其局限性。好在当时我国生产管理本来比较粗放。这种“以粗对粗”的做法倒也能风行一时。在上世纪九十年代期间，受国际合作的影响，我们对优化建模及其应用的客观规律作了一些力所能及的总结，提出了“复杂数据处理”的概念，接受了海外专家关于优化工作必须“二次开发”也就是必须“工程化”的思想，并在实践中取得了

12、一批成果(4)。但是一直到我们学习和掌握了近年来计算机学界已广泛接受，化学化工界尚未普遍采用、优化领域中尚鲜为人知的“统计学习理论”(5)后，对我们过去经历过的优化工作的发展过程和今后的发展方向才算从基础理论上有了较系统的理解。在本文中，我们试图运用我们掌握的新的理论认识。对优化建模的理论和实践作一次综述。是否有当，尚希同行指正。31机器学习的数学本质机器学习的数学本质 “机器学习，就是从指定函数集 f (x,), , 中选出能最好地逼近训练集数据，或对未知样本预报最有效的函数，作为数学模型“(5)。由此可见，机器学习的结果，总是囿于原来指定的函数集的范围。例如：如果是线性回归，指

13、定函数集限于线性函数，则数据处理的结果只能是线性方程。即使客观的规律是非线性的，也只能“削足适履”描写成线性规律。其实，化学，化工，冶金等领域的数据集，一般或多或少都带有非线性。以我们过去做过的若干优化项目为例，如果我们以目标值和影响因子间相关系数大于 0.9，或以 PLS 线性回归的预报残差（样本平均归一化值）小于 0.3 为“近似线性”的判裾，则“近似线性问题”也只占少数（见表 1）表 1 若干优化建模用数据的非线性举例 Table 1 Some examples of non-linearity in the models for optimization优化问题相关系数PLS

14、预报残差铋系高温超导体性能优化0.4690.830 稀土绿色荧光粉性能优化0.8470.307 顺丁橡胶性能优化0.8940.215 氧化铝生产溶出率优化0.2820.930 镍氢电池阴极性能优化0.2570.956 卷烟生产碎丝率优化0.7590.497 汽车部件电镀质量优化0.7630.454 镀锡钢板耐蚀性优化0.7180.567由表 1 可看出，即使是将近线性包括进去，能用线性函数近似表达的例子也是少数。应当指出：线性回归方法在数据确实是近线性、数据分布服从高斯分布、且噪声很小时，确是一种有效的回归算法。当数据确实符合这些条件时，用线性回归处理数据是好办法。主张线性回归的人们往

15、往说：当非线性函数限制在不大范围时，就接近线性规律。这在数学上是对的。但许多优化问题的工作范围是由客观需要定的，不能任意划小。因此常常不能忽视非线性特征。我们经历的许多优化实例也说明非线性并非总是可以忽略的：安阳钢铁公司硅钢片原为低规格产品。该厂用线性回归配合钢铁专家为提高产品牌号攻关数年，取得一定效果，但始终未达到产品全部为高挡品的目标。后来与我们合作，改用能处理非线性数据的模式识别方法建模，一举达到 100%出产高挡品的目标，在生产现场根据数学模型建专家系统后实现了长期稳产高挡品。南京炼油厂若干用线性回归优化过的装置，用模式识别分类法再优化，发现仍有很大的优化潜力。上世纪九十

16、年代初，宝山钢铁公司转炉炼钢炉龄数据，用线性回归得的结论和生产实际情况也不符合。图 1a,b,c 三个图分别表示三种不同对象的线性回归计算值和实际值的对比。可以看出：图 1a（VPTC 陶瓷半导体的制备工艺条件和性能的关系）处理的数据确实是近线性的，所以计算值和预报值符合较好。我们可以认为在此线性回归是可以用来近似建模的；图 1b（某铝厂氧化铝溶出率优化用数据集）表示数据带有很强的非线性，若硬用线性回归处理计算误差很大，实际上不能用线性算法总结规律；图 1c（氧化铟薄膜厚度和工艺条件的关系）是介乎前二者之间的情况。可以看出，虽然用线性回归也可勉强建模，但若用二阶函数集建模会更好些。4图 1 线性回归建模的三种不同结果 Fig.1 Three typical results of modeling by linear regression图 1b,c 的情况，就是机器学习理论中“欠拟合”(underfitting)的典型事例。所谓欠拟合，是因为客观存在的规律和指定函数集中所有的函数都不吻合，所建模型的拟合与预报效果都不好的情况。

展开阅读全文