0 引言
生产过程质量控制是利用生产过程的动态信息进行质量预测和质量控制。由于其实时性和较高的准确性,可以预估质量问题,从而降低钢铁企业的生产成本和经济损失。生产过程质量控制的基础是对生产过程的质量预测。因为只有对未来产品质量参数进行估计,才能在产品质量发生问题前调整生产过程,真正达到提高产品质量的目的。进行质量预测的手段是建立生产过程的质量模型,即以各种决定产品质量的变量为输入,以产品各质量指标为输出的数学模型。但由于影响因素较多而导致机理建模困难等原因,质量模型的建立比一般用于自动控制的对象建模更为困难。数据挖掘是一类从大量数据中自动寻找规律的方法,在过去20年中得到了大量的研究。数据挖掘方法的特点是能从大量的数据中自动分析并提取未知的、潜在有用的知识,因此可用于复杂系统的行为建模和行为预测。传统的数据挖掘应用通常只处理静态的数据,即不包含时间信息的数据。但当将数据挖掘方法用于建立钢铁企业生产过程的质量模型时,由于传感器对生产过程不断采样的原因,获得的生产历史数据通常都是时间序列,即历史数据是和时间相关的一系列值。因此通常用于处理静态数据的数据挖掘方法不能直接应用于钢铁企业生产过程历史数据的挖掘。
动态数据挖掘是从海量时间序列数据中寻找规律的数据挖掘方法。将动态数据挖掘方法应用于钢铁企业生产过程质量控制时,主要目标有两个:(1)通过对钢铁生产过程历史记录的数据挖掘,建立产品质量预测模型,并运用于生产过程,进行实时质量预测;(2)在产品质量出现问题后,利用对历史数据的挖掘分析生产工艺对产品质量
的影响,找出隐藏的生产规律,为钢铁企业改进工艺提供决策支持。
1 问题描述
设生产过程P具有n个可测的工艺参数x1,x2,?,xn和m个可测的产品质量指标y1,y2,? ,ym,设这些工艺参数和质量指标均为时间的函数,从t时刻开始的测量值已知,且可表达为以下时间序列的形式,即:

式中,xi(t)和yj(t)分别为工艺参数 和质量指标yj从t时刻开始的测量值时间序列;△ti和△Tj分别为采样周期;NI和mj为采样个数。上述任一采样值可能带有分布已知或未知的测量噪声。
本文所研究的面向质量控制的动态数据挖掘可表达为以下两类问题的求解过程。
(1)质量预测问题。给定工艺参数测量值时间序列x1,x2,?,xn和产品质量指标测量值时间序列y1,y2,?,ym,求解质量预测模型

式中,X=[x1,x2,?,xn]T为工艺参数向量;Y=[y1,y2,?ym]T为质量指标向量;N为工艺参数X测量值时间序列的长度。
(2)质量分析问题。给定Xl,X2,? ,Xn和yl,y2,?,ym ,求解质量分析模型:

式中,ф(t):{X(t),X(t—△t),? ,X(t—N△t)};N为工艺参数 在一个质量检验周期△T内的测量值时间序列的长度;M为质量指标y的测量值时间序列的长度;X=[ xl, x2,?,xn为关联向量,其中 是逻辑值,表示工艺参数 是否与质量指标y出现问题有关。
根据上述问题描述可知,对于质量预测问题而言,数据挖掘的目标是根据工艺参数和质量指标的测量值时间序列历史记录建立质量预测模型。该模型可以在线使用,也可以离线使用。在线使用时,根据工艺参数 x1,x2 ,?,xn 的测量值时间序列可实时预测生产过程质量指标,从而进行质量控制。离线使用时,可以根据工艺参数 x1,x2,? ,xn的设计值进行工艺设计验证,即将新的工艺参数设计值输入质量模型,验证是否会导致质量问题。
而对于质量分析问题而言,数据挖掘的目标是根据工艺参数和质量指标的测量值时间序列历史记录求解质量分析模型。质量分析是一种离线应用,根据工艺参数xl,x2,?,xn和质量指标yl,y2,?,ym 的测量值,判断哪几个工艺参数与质量问题有关,为分析事故发生原因从而改进生产工艺提供决策支持。
2 面向质量控制的动态数据挖掘方法
2.1 样本抽取
与静态数据的挖掘不同,对多个时间序列进行动态数据挖掘时,需要解决的第1个问题是数据的样本抽取,即将各个传感器采样得到的多个时间序列数据根据其时间、空间上的相关性以及对产品质量检验结果的影响,抽取相应的子序列,组成数据挖掘的样本集合。这是因为对某一质量指标有影响的可能是不同工艺参数在不同时间段上的变化情况。
钢铁企业生产过程可以分为间歇型过程(如高炉炼铁过程)和连续型过程(如连续退火过程)。间歇型生产过程的特点是:单批产品在同一工艺装置中,一般要经历多个加工处理时段,因此通常其各个操作参数的设计值在生产过程的不同时段取不同的值。连续型生产过程的特点是:原料连续经过生产线各工艺装置处理后成为产品,为了保持生产的连续性,各工艺装置操作参数的设计值为定值。由于上述两类生产过程的不同特点,在进行数据样本抽取时必须采用不同的处理方法。下面分别加以阐述。
2。1.1 间歇型过程
对于间歇型生产过程,由于单批产品的质量检验是在该批产品生产完成后进行的,所以可以取单批产品在整个生产过程中完整的工艺参数测量值时间序列和质量指标测量值时间序列作为动态数据挖掘所需的样本。
为方便描述,假设间歇型过程P的产品质量指标yl,y2,? ,ym 的采样周期均为△ T,采样次数为f,即产品质量检验在to+△T ,t0+2△T,? ,t0+l△T时刻完成。则对于工艺参数测量值时间序列X1,X2,?,Xn 应根据上述产品质量检验周期抽取时间上对应的那段子序列,并构成动态数据挖掘所需的样本{(XK,YK)} K=1,2.?.f。即第k组样
本(XK,YK)应为

式中,[ ]为向下取整函数。
2.1.2 连续型过程
对于连续型生产过程,因为不同的工艺参数在不同的时段对加工的产品质量发生影响,因此应将工艺参数的测量值时间序列中,对某个质量检验结果有影响的一段子序列提取出来,和质量指标测量值一起组成样本。
同样假设间歇型过程P的产品质量指标Y1,Y2,? ,Ym的采样周期均为△T,采样次数为Z,即产品质量检验在to+△T ,to+2△T,? ,to+k△T peru完成。则对于工艺参数测量值时间序列。根据对上述产品质量指标产生影响的时段和产品质量检验周期分别抽取对应的那段子序列,并构成动态数据挖掘所需的样本,也就是说,设在第k个产品质量检验周期,工艺参数测量值时间序列露 对产品质量指标产生影响的时段为[to+ +t f,to+ +t“],i=1,2,? ,n,其中£和to分别为工艺参数 影响产品质量的起始时间和结束时间。则第k组样,仍由式(6)所定义,而兄应为

2.2 模式提取和评价
2.2.1 质量不良原因的模式假设
通常产品质量不良的原因可分为两类,即工艺参数的设计值有错误;或在生产过程中工艺参数未能控制在设计值。本文提出的动态数据挖掘方法在用于钢铁企业生产过程质量控制时,基于以下关键性假设,即设产品质量不良的原因可以通过生产过程中工艺参数的时间序列实测样本反映出来。工艺参数的时间序列中某些特征的改变,引起生产质量的变化,而这些时间序列的特征,可以用模式来描述。例如,在连铸生产工艺中,铸坯拉速不稳定时,容易出现纵向裂纹。根据此先验知识,可以将铸坯拉速测量值时间序列的方差作为影响铸坯纵向裂纹质量事故的一个模式。为了解铸坯拉速测量值时间序列的方差与铸坯纵向裂纹质量事故之间的定量关系,可以采用数据挖掘方法从海量的铸坯拉速测量值生产历史数据中去寻找。
根据上述质量不良原因的模式假设,在进行质量预测模型的建模或质量事故原因的分析时,要进行时间序列的模式提取和评价。
2.2.2 时间序列的模式提取和评价方法
时间序列的模式提取是从时间序列中抽取有价值的特征模式评价指标的过程。在经典的时间序列分析理论中,已给出了一类模式提取的方法:
根据时间序列建立ARMA模型E3。该方法把时间序列空间映射到ARMA模型中的参数空间,也称为时间序列的ARMA特征空间。但是ARMA特征没有物理意义,难以根据它来改进产品质量。为了使模式评价指标具有物理意义,有三类可供选择的方法:
(1)根据理论分析和实际经验,构造与产品质量有关的模式类。例如根据经验,冷连轧过程中带钢温度骤升骤降可能引起断带,因此将它作为带钢温度时间序列的一种模式。
(2)对于没有任何先验知识的情况,可以穷举构造所有可能的有物理意义的模式。例如时间序列的均值、方差、最大值、最小值、中间值、局部极值出现频率、单调性、凹凸性、与标准值的偏差、时间累计量等都可以被认为是候选的模式。
(3)对于只有部分先验知识的情况,可以结合前两种方法。
特征模式评价指标确定后,时间序列模式评价的一般步骤如下:
(1)给定用于各工艺参数 的测量值时间序列模式评价指标集合,以S {s ,? ,s ,? ,s f表示,其中任一元素为工艺参数 时间序列的第 种模式评价指标。
(2)给定待提取模式的时间序列X1。
(3)根据各模式提取的计算方法,对上述时间序列露 进行模式评价,即计算:
Mij=fs(xi) (12)
式中,m 沩时间序列露在模式 下的模式评价结果,即模式评价值;sj为模式 的评价算法。
(4)对样本{(Xk,Yk)}k=1,2_?.f中的时间序列氟进行模式评价,即将该时间序列转换为模式评价结果Mk:{mk1, mk2 ?,mkq },从而将样本转化为{XK,YK } :1.2.?. 。
从上述过程可以看出,经过特征模式提取和评价,已经将时间序列数据转换成了不显含时间因素的模式评价值序列。
2.3 数据挖掘过程
综上所述,对于生产过程质量控制而言,整个动态数据挖掘过程,包括根据生产过程的性质对时间序列数据进行样本抽取、根据给定的特征模式评价指标对时间序列进行特征模式评价、根据质量控制的要求建立质量预测或质量关联模型等三个组成部分。具体步骤总结如下:
(1)确定m个可测的产品质量指标;
(2)根据理论分析和实际经验,确定可能影响质量指标的因素。根据这些因素,确定参加挖掘n个可测的工艺参数以及相应的特征模式评价指标集合;
(3)获取工艺参数的测量值时间序列,并使用第2.1.2节中介绍的方法对时间序列进行样本抽取,得到数据挖掘样本;
(4)使用第2.2.2节中的方法,对样本进行模式评价,从而将数据样本转化为模式评价样本;
(5)对于质量预测问题来说,使用回归分析方法建立如式(3)所示的质量预测模型,对于质量分析问题来说,使用关联分析方法建立如式(4)所示的质量分析模型;
(6)使用测试样本集对挖掘结果进行测试;
(7)输出数据挖掘结果。
3 应用实例
运用上述理论与方法,作者在一个冶金企业生产质量分析数据挖掘平台DMPlaform上,以某钢厂1900直弧型板坯连铸机生产过程铸坯纵裂质量控制为背景进行了动态数据挖掘试验。
定义质量指标为铸坯纵向裂纹,考虑的数据类型为逻辑值,即只考虑铸坯样本有无纵向裂纹。在生产中通过切片硫印的方式获取该质量指标的检验值,采样周期为1 h。参与数据挖掘的工艺参数共有24个,最短的采样周期为5 s(如结晶器循环冷却水和二冷段冷却水的温度),最长的采样周期为1 min(铸坯表面温度)。根据已知的连铸理论和经验知识,如:锰硫比增大或者硫含量降低时裂纹减少,拉速越不稳定越容易出现纵向裂纹等,确定了对各个工艺参数时间序列需要提取的具有物理意义的模式,如表1所示。
表1 参与数据挖掘的连铸生产工艺参数及提取的模式

连铸是连续型生产过程,采用第2.1.2节中的方法从生产历史数据中抽取样本,共采集了60批铸坯的生产历史记录,每批数据记录的时间跨度为铸坯切片质量硫印检验前1 h。因此24个工艺参数时间序列的最大长度为43 200个采样数据,总数据量约为200万个数据。然后对原始数据进行去除野值、数据平滑等预处理,接着根据表1对每批数据提取特征模式,最后得到60个样本。我们将前40个样本作为训练集,利用朴素Bayes分类建立质量预测模型。将后20个样本作为测试集,对获得的连铸铸坯质量预测模型进行了检验。表2为预测结果。
其中0表示质量合格,1表示有质量问题(表面裂纹)。可见只有No 8和No 20两个预测值和实际值不符合,预测成功率为90%。由于连铸板坯纵裂的形成原因非常复杂,根据经验很难预测和控制,因此90%的质量预测精度对于铸坯质量控制有很大的帮助。

参考文献
[1]万百五.工业生产的产品质量模型和质量控制模型及其应[J].自动化学报,2002,28(6):1 019.1 024.WAN Bai—wu.Product quality model and quality control model for industries and their cations[J].Acta AutomaticSinica,2002,28(6):1 019—1 024.
[2]Mehmed Kantardzic.数据挖掘概念、模型、方法和算法[M].北京:清华大学出版社,2O02.1-8.
[3]Peter J Brockwell,Richard A Davis.T'rrne series:theory and methods[M].[s 1]:Springer-Vertag New York Inc,1987.13.33.
[4]熊毅刚.板坯连铸[M].北京:冶金工业出版社,1994.9-35.
[5]曹广畴.现代板坯连铸[M].北京:冶金工业出版社,1994.75.87.




