摘要:本文提出了一种基于k-近邻互信息的前向式变量选择方法。该方法以变量前向累加互信息值最大化为准则选择相关变量,同时计算每次累加变量与已选择变量子集间的互信息值来判断所累加变量是否为冗余变量,通过设定冗余互信息阈值,实现冗余变量的剔除,得到最优辅助输入变量子集。基于数值案例仿真结果验证了本文所提变量选择方法的可行性与有效性,在准确选取辅助变量的同时降低了算法复杂度。最后,该方法成功应用于污水处理过程中出水生化需氧量(BOD)预测模型的输入变量选择上,利用精选出的辅助变量有效提高了模型预测精度。
关键词: 软测量; k-近邻互信息; 前向式变量选择; 相关性; 冗余性
一、研究背景及意义
工业过程中往往存在一些难以实时测量的关键质量变量,这些难测变量是限制工业过程实现监测、控制以及优化的重要因素。软测量技术通过易测量变量来建立难测变量的预测模型,实现了难测变量的实时预测.
然而,软测量模型预测性能的优劣不仅取决于模型的好坏,模型的辅助输入变量的选取也是至关重要的,因为它直接决定了软测量模型的结构与输出。准确选取合适的辅助输入变量可以提高预测精度,同时也能降低模型的复杂度、提高模型的运行效率。在实际工业生产中,变量选择的方法通常是依据工艺机理和人工经验进行的,缺乏对辅助输入变量的相关性分析,难以实现变量的精选。针对这个问题,越来越多的基于数据驱动的变量筛选方法被相继提出。有学者采用主成分分析(PCA)对数据进行降维处理,用于厌氧消化过程中挥发性脂肪酸的预测,提高了模型预测性能。也有学者将偏最小二乘(PLS)与高斯过程回归相结合,实现了谷氨酸发酵过程的特征提取,并对产物浓度进行有效预测。但是实际工业过程往往是一个多变量耦合的非线性过程,PCA和PLS提取的特征与主导变量间是一种线性相关性,无法给定变量间的非线性相关程度。互信息(MI)作为一种可以衡量变量间非线性相关程度的方法,具有计算速度快、适用性强、不依赖后期软测量建模方法等优势,因而被广泛应用于变量选择过程中。
k-近邻互信息是一种用来估计互信息值大小的方法,有研究采用k-近邻互信息对青霉素发酵过程变量进行筛选,提高了辅助变量与主导变量之间的相关性。但是,这种方法只考虑了单个输入变量与输出变量之间的互信息值大小,忽略了其他输入变量对输出变量的影响以及输入变量间的相互作用。同时,输入变量间存在冗余性,容易掩盖模型的重要变量,干扰预测效果。为此,Battiti、Peng等人综合分析了输入变量间的相关性和冗余性,通过将两者的衡量指标进行线性组合,得到新的变量选择评价标准。但该方法存在一定的主观性,难以有效协调平衡变量间的相关性和冗余性,且计算成本较高,不适用于高维数据的变量选择。
鉴于上述问题,本文提出了一种基于k-近邻互信息的前向式变量选择方法。该方法首先采用变量前向累加方式,利用联合互信息筛选输入变量,解决了基于单变量的互信息评价指标下变量选择的片面性; 然后,分别设定相关变量选取和冗余变量剔除的评价准则,加强了变量选择中相关性与冗余性指标的独立性; 最后,设计了一种输入变量快速选择策略,避免了对包含冗余变量的输入变量集进行分析计算,提高了选择效率,降低了算法复杂度。通过数值案例与实际工业过程应用案例,验证了本文所提前向式变量选择方法的可行性与有效性,在减少计算成本的同时实现了相关变量的精确选取和冗余变量的准确剔除,提高了后续软测量模型的预测精度。
二、研究内容和结论
基于MI-FVS的变量选择算法的流程图如图1所示,主要内容包括两部分: 首先通过第一部分实现冗余变量的剔除,然后第二部分针对不含冗余变量的候选输入变量集进行前向搜索,最后可得含有预设数目的最优变量子集。
图1 MI_FVS算法流程图
为了验证本文所提出的基于k-近邻互信息的前向式变量选择方法在选取相关变量和剔除冗余变量上的快速性和有效性,首先,利用Friedman数值案例进行仿真实验,并将本文方法与其他变量选择方法的变量选择结果和算法复杂度进行对比分析。然后将本文方法应用于实际污水处理过程中出水BOD软测量模型的输入变量选择上,分析比较基于不同变量选择方法的软测量模型的预测精度。
2.1 数值案例
本文基于Friedman数据集,采用所提出的前向式k-近邻互信息方法进行变量选择。
利用上述数学模型产生500个样本数据, 分别采用JMI、MIFS、mRMR、CMIM以及MI-FABC方法与本文变量选择方法进行对比。表1记录了每种变量选择方法所选变量以及其对应的算法复杂度。
对表1进行分析可知,JMI方法未考虑去除冗余变量,因而误选了变量X12,MIFS、mRMR方法虽然可以去除冗余变量,但误选无关变量X6,且算法复杂度较高。本文所提变量选择方法(MI-FVS)与CMIM方法具有相同的算法复杂度,但是CMIM方法也误选了变量X6,而本文方法可以准确选出所有变量。对比MI-FVS和MI-FABC方法,两种方法都能准确选出所有变量,但本文提出的方法在算法复杂度上更小。因此,可以验证本文所提出的基于k-近邻互信息的前向式变量选择方法能够在降低计算成本的同时,精确选取相关输入变量,剔除冗余变量。
2.2污水处理过程出水BOD预测
伴随着工农业的发展,水资源受到了严重的污染,污水处理对水资源的循环利用具有重要意义。BOD是指污水处理过程中微生物分解可降解有机物所需溶解氧的数量,是反映水体受污染程度的重要水质参数。然而,一般污水处理厂对BOD的检测采用离线化验的方法,检测时间在5天左右,检测周期过长导致无法及时反映污水处理的状况,阻碍了污水处理过程水质参数的闭环控制。因此,研究出水BOD的快速测量方法对污水处理厂高效运行具有重要意义。
本文选用某城市污水处理过程的数据对本文所提方法的有效性进行进一步验证。该数据集共有528个样本数据,包含38个污水处理过程水质参数变量,数据采样时间跨度近两年,采样间隔0到2天不等。然后,依据污水处理过程的反应机理和人工经验,先对除去预测变量外的37个变量进行粗选,得到由20个水质参数变量组成的变量集。
在粗选得到20个水质参数变量的基础上,再采用前向式k-近邻互信息方法对辅助输入变量进行精选,通过上述过程,最后可得到由7个水质参数变量组成的最优辅助输入变量集.
利用上述得到的由水质参数变量组成的样本,建立基于相关向量机的软测量模型对污水处理过程的出水BOD进行预测。
为了对比基于前向式k近邻互信息的相关向量机(MI-FVS_RVM)软测量建模方法对出水BOD的预测效果,将本文方法分别与采用RVM模型(RVM)、基于粗选变量的RVM模型(RS_RVM)、基于单变量互信息的RVM模型(SMI_RVM)以及基于JMI的RVM模型(JMI_RVM)对出水BOD进行建模预测的四种方法进行比较。
为了更直观的对比不同方法的预测精度,本文采用均方根误差(RMSE)评价指标来对5种方法的预测性能进行评估。RVM、RS_RVM、SMI_RVM、JMI_RVM以及MI-FVS_RVM(本文方法)选择的变量数目分别为37、20、15、12、7,它们的RMSE分别是0.7979、0.3858、0.2286、0.1415以及0.0899。
表2依次记录了采用上述几种方法建立的软测量模型对出水BOD预测的均方根误差以及决定系数。图2为基于FVS-MI_RVM方法的出水BOD预测浓度值与实际出水BOD浓度值的对比图。
分析可得以下三点结论:
(1)对比RVM、RS_RVM和SMI_RVM三种模型的预测性能可知,对输入变量进行合理的选择有利于模型预测精度的提高。其次相比依据反应机理和人工经验筛选出的辅助输入变量,通过机理与互信息相结合的方法筛选的辅助输入变量更具准确性,从而有效地提高了模型的预测精度。
(2)对比SMI_RVM和JMI_RVM两种模型的预测性能可知, JMI_RVM模型的预测效果要好于SMI_RVM模型。这是因为基于单变量互信息方法容易忽略一些组合变量对模型的预测效果,而JMI方法考虑了多个变量与输出变量间的联合互信息,选出的输入变量更全面。
(3)在MI-FVS_RVM模型中,在JMI方法选择变量的基础上,采用了本文提出的基于k-近邻互信息的前向式变量选择方法,在选取相关变量的同时剔除了冗余变量,一方面减少了输入变量的数目,降低了模型的复杂度,加快了模型训练的速度; 另一方面减小了模型的预测误差,验证了本文提出的变量选择方法的有效性。
图2 基于MI-FVS_RVM方法的预测曲线
三、边际贡献与未来拓展
系统工程是以不同复杂系统作为研究对象的一门学科,系统科学的研究离不开对实际对象的分析,污水处理过程是一个复杂的生化反应系统,具有强非线性、大时滞等特点,我们在对污水处理过程进行研究时便可以将其作为一个系统,通过系统科学的方法对其进行研究。本文的工作便是将污水处理过程看作一个灰色系统,研究污水处理过程的系统建模方法,实现污水水质参数的预测。但由于污水处理过程参数众多,本文提出了一种应用建模过程中辅助输入变量参数的精选方法。通过变量前向累加搜索找出与主导变量具有较强相关性的输入变量,同时计算每次累加变量与已选变量子集间的冗余互信息,实现冗余变量的剔除,得到最优辅助输入变量集。将该方法结合RVM建模方法应用于污水处理过程出水BOD的软测量中,仿真结果表明: 本文提出的基于k-近邻互信息的前向式变量选择方法在选择较少输入变量的情况下,能有效提高出水BOD的预测精度,为污水处理过程的水质参数智能预测提供了重要保障。未来,在合理的选择输入变量后,将更多的聚焦于软测量建模方法的研究上,通过深度学习算法建立更加智能的系统模型。
本文摘编自《系统工程理论与实践》第42卷第1期论文《基于k-近邻互信息的前向式变量选择方法及在水质参数软测量中的应用》,点击链接下载全文:http://www.sysengi.com/CN/abstract/abstract113069.shtml
作者:王威,硕士研究生, 研究方向: 复杂工业过程数据驱动建模;阳春华,博士, 教授, 研究方向: 复杂工业过程建模与优化控制、故障诊断与智能控制系统;通讯作者: 韩洁,博士, 讲师, 研究方向: 智能优化方法及应用、复杂工业过程建模与优化控制,;李文婷,博士研究生, 研究方向: 复杂工业过程建模与优化;李勇刚,博士, 教授, 研究方向: 软测量与智能感知、智能优化。均是中南大学自动化学院