数据挖掘在宝钢的实践_数据挖掘_宝钢

数据挖掘在宝钢的实践

2009/12/15 11:49:00

1. 引言

　　随着计算机系统的广泛应用，社会各领域都积累了大量的过程数据。这些数据中蕴藏着许多以前不为人所知的规律，可以为企业带来巨大的财富。过去由于技术方面的限制，很难处理这些海量数据，人们面对一座金山却无从下手。直到上个世纪末，计算技术的发展终于将来自多领域的技术整合在一起，形成了数据挖掘技术（或者说知识发现）。概括地讲，数据挖掘可以看作是一个从大量数据中提取出可信的、新颖的、有效的、具有潜在价值的并能被人理解的模式的非平凡的处理过程^[1]。各行各业通过数据挖掘获取了对自己极具价值的知识，提升了企业的价值和竞争力。

　　同样在冶金工业中也年复一年的积累着各种数据，从每一炉钢到每一块板坯到每一个钢卷，各级计算机系统可以把这些数据完整地收集起来。但是收集数据本身并不是目的，从“信息化带动工业化”的角度来看，更重要的是把这些数据利用起来，利用数据中蕴藏的知识来指导生产，形成企业的核心竞争力。

　　另一方面，在冶金工业的运营过程中还有许多问题需要解决，例如全流程的质量控制和供应链管理等。由于它们固有的多变量和非线性特点，用传统的局部优化的方法很难达到企业级的最优。现在通过把分散在各个生产过程的实际生产数据按主题组织成数据仓库，在此基础上展开数据挖掘工作和获取知识，利用获取的知识可以比过去更好地解决这些问题。

　　本文以下部分详细讨论了冶金制造管理中的数据挖掘方法论、数据挖掘的工具软件以及数据挖掘在宝钢的应用，最后给出了我们从实际工作中得到的经验和体会。

2. SEMMAO方法论

　　数据挖掘的诞生有着很浓郁的实际应用背景。针对特殊的应用领域，需要有专门的数据挖掘方法论来指导具体的工作。可以说数据挖掘的方法论就是数据挖掘的元知识，它为从数据到知识提供了一条可行的路径。

　　一般认为，数据挖掘的流程可以分为3大步骤：数据准备、数据挖掘（狭义）、结果解释（图1）数据准备为数据挖掘提供合适的数据，而数据挖掘则利用一系列算法从中抽取出数据模式或模型，之后领域专家要对此模式或模型做出解释，将其上升为知识以指导业务。

图1 数据挖掘流程

　　针对冶金工业这一特殊的应用领域，本文采用了一套称为SEMMAO数据挖掘方法论。具体地说，就是遵循采样（S）、探索（E）、修正（M）、建模（M）、评价（A）、优化（O）的方法论，一步一步地从数据中获取知识（图2）。它是从宝钢数据挖掘实践中提取出来的、行之有效的指导思想。以下就SEMMAO方法论中的每一个步骤作详细地说明。

图2 SEMMAO方法论

　　作为数据挖掘的数据源，应该是按主题组织的数据仓库（企业级）或数据集市（部门级）^[2]。通过对数据的有效组织，可以提高数据的挖掘效率。特别要指出的是数据挖掘应该建立在数据仓库而非数据库之上，这是因为两者的定位不同。一般说来，数据库管理系统软件（DBMS）是用于创建操作性的数据库和在线事务处理系统（OLTP），它所关注的是数据库设计范式（即数据的规范化和关键字的设定）、性能（建立索引）、数据的完整性和一直性，（数据提交、回滚和恢复）以及对数据库系统和在线事务处理系统的管理。相反，对统计分析、数据挖掘和在线分析处理（OLAP）而言，需要的是一个非规范化的数据结构，于是需要把数据库重组为数据仓库。

　　采样就是根据一定的规则从大样本集中抽取规模较小的样本子集，可以分为随机采样和非随机采样。采样的主要目的是减少后续步骤处理的数据量，有时也可以起到改善数据分布的作用。

　　观察是指对数据进行一些可视化的探索，让分析人员对数据的分布特征做到心中有数，为后续的挖掘工作带来一些有益的提示。

　　调整是对各种令人不满意的数据进行处理，使其满足建模算法的要求和精度要求。调整的方法很多，具体的有缺失值处理、奇异值处理、矛盾值处理、标准化和变量变换等。

　　建模是以一种数学模型的方式来表达隐含在数据中的知识。大体上模型可以分为有监督和无监督两大类。有监督的模型是指目标变量已经被赋予一定的值，通过训练要建立一种从输入变量到目标变量的映射，使其在一定的误差准则意义下达到最优。这样的模型可以用于分类和预报的目的。无监督的模型则是在缺少目标变量的信息的情况下，仅利用输入变量自身的信息把样本划分成为若干个类，从而达到抽取信息的目的。

　　评价步骤是对模型的结果进行误差分析。如果模型被证明是可以接受的，就可以被认为是一种知识，可以用于以后的预报和优化。

　　优化步骤是用挖掘出的知识来解决实际问题，诸如“如何调整某些输入变量的值来得到输出变量的目标值”。在一般的商业性数据挖掘中并不包含这一步，它们一般做到评价就结束了，把进一步的使用扔给用户。但是在我们的实际应用中，发现模型的理解和使用也很重要，所以在数据挖掘的方法论中增加了这一步。优化的方法包括聚类调优、遗传寻优等。

　　经历了以上的步骤，来源于实际数据中的知识应用于生产，生产过程又不断产生新的数据。通过不断的循环往复，形成一个有效提升制造生产能力的闭环。

3. 数据挖掘工具软件

　　“工欲善其事，必先利其器”。选择好的数据挖掘工具软件，能够极大地提高数据挖掘的效率，使业务人员有更多的精力关注自身的业务，而非数据挖掘的技术细节。

　　在当今国际上有很多数据挖掘的商业软件^[3]。它们一般都将注意力集中在数据挖掘的算法上，而对数据准备阶段的工作提供的支持不足。究其原因我们认为数据准备工作与源数据的特性、格式等都有着很强的联系，在实践中由于其处理的灵活性，很难将这些工作抽象出来，用一种放之四海皆准的方法去解决。但其实质是，数据准备阶段的工作既烦琐又重要，它的工作量一般要占到整个数据挖掘工作量的80%，这一部分工作将在很大程度上影响整个数据挖掘的效率。

　　本文将介绍两个数据挖掘工具软件，一个是我们自己研发的基于SAS的实用数据挖掘系统（Practical Miner，以下简称PM），另一个是美国SAS公司出品的SAS Enterprise Miner^®（以下简称SAS/EM^®）。这两个产品已经在我们的实际应用中证明了它们的可用性。

　　实用数据挖掘系统是在SEMMAO方法论的指导下，由宝钢技术中心自动化研究所自主开发的数据挖掘工具软件。它定位于一种简洁实用的数据挖掘工具，就象一台傻瓜相机，按下一个按钮就可以完成全部工作。PM基于基本的SAS平台，目前发布的版本号为2.0（图3）。选择SAS而非通常的开发平台作为开发和运行的环境是因为SAS是公认的最好的统计软件且应用广泛，可以大大加快我们的开发进度。PM功能全面，覆盖了从数据预处理到数据呈现的整个数据挖掘过程。此外，PM为用户提供了友好的界面，即使对数据挖掘技术不熟悉的人员，在它的中文帮助系统指导下，也可以方便地使用。

　　PM的主要功能包括：

　　（1）数据收集：根据用户的设定条件，选取分析用数据，并提供SAS数据格式与其它数据格式之间的接口；

　　（2）数据采样：抽取数据集市中的典型样本；

　　（3）数据预处理：对数据进行规范性检查、变量降维、数据变换、异常点处理、矛盾点处理；

　　（4）可视化探索：提供直观的数据分析功能；

　　（5）聚类分析：提供常用的聚类方法，可以自动决定类数；

　　（6）数据建模：提供人工神经网络、模糊系统、线性回归等建模工具，可以优化模型结构；

　　（7）数据预测：根据已建立的模型，对数据进行批量预报；

　　（8）优化设计：通过定性或定量的方法，对于给定的目标，调整影响量，使目标达到最优；

　　（9）趋势分析：研究变量随时间变化的趋势；

　　（10）规范管理：设置规范数据库。