
图源百度
摘要:实现系统数据的不确定性挖掘与校准是提升数据分析质量和管理决策精准度的重要前提。本文基于云模型理论提出了一种面向决策分析问题的云校准方法,通过云数字特征提取、云发生器构建和隶属度转换实现原始指标到隶属度的规范化校准。与现有数据归一化、标准化、函数转换校准等方法进行案例数据的校准实验对比,发现新提出的校准方法在综合建模性能评价上优于其他几种方法。另外采用大中小型样本、高中低维特征的11个数据集构建不同方法校准结果的随机森林、逻辑回归和神经网络等机器学习模型,进一步验证了新方法的优越性与稳健性,研究成果为有效提升数据分析质量和决策建模提供了一定的理论指导和方法论支持。
关键词:云模型;数据校准;隶属度;机器学习
一、研究背景与意义
在当今数字化浪潮汹涌的时代,数据的规模、多样性、复杂性都在快速增长,数据俨然成为驱动社会进步和科技发展的核心动力。然而,数据价值并非自然产生,其能否得到有效体现取决于数据质量。数据预处理与校准作为数据挖掘、机器学习等分析工作的关键环节,对于提升数据质量和数据分析准确性起着至关重要性的作用,其可以有效改进决策树、K近邻、人工神经网络、支持向量机等机器学习建模效果的结论已得到了学术界的一致认可,特别是能源环境预测、金融工程、风险评估等研究领域对数据预处理及校准质量的要求更为严格。在大数据环境下,系统状态呈现更强的随机性和模糊性,异常数据的表现形式更为复杂,因此有效捕捉和刻画这种不确定性特征并进一步校准原始系统数据,对于完善数据生态、保障数据分析质量具有重要意义。
通过对前人研究的回顾和梳理,发现已有数据预处理和及校准方法大多忽视了原始系统特征的不确定性内涵,对噪声处理不足,且多数校准过程仅是当前状态的线性或非线性变换,本质上还是对数据区间范围或分布的压缩与修正,在很大程度上受限于系统数据的不确定性特征。因此,提出一种旨在提高数据分析质量的新的数据校准方法至关重要,可以为学者开展数据科学、数据挖掘等相关研究时提供便利和参考。
二、主要内容
为解决数据预处理阶段的不确定性与校准难题,进一步提升后续的数据分析质量,本文提出了一种基于云模型理论的数据校准分析方法(Cloud Calibration Method,CCM),以系统识别数据中的模糊性和随机性特征。云模型是一种用于处理不确定性的数学模型,它通过三个云数字特征,期望、熵、超熵来描述一个概念或数据的不确定性,为定性概念到定量结果之间的隶属度转化提供了可行的理论框架,可有效表达过高值或过低值的不敏感性。本文的数据校准方法CCM利用云模型的云滴分布状态对抽样数据进行更精细地修正与调整,最大程度上还原了总体中变量特征的分布状态,从而克服传统方法处理抽样数据的主观性和局限性。
为验证该校准方法的有效性与稳健性。本文通过Boston房价案例数据分析对比了不同数据校准方法的性能,并根据各自的校准结果进行机器学习建模对比,检验了CCM相比于其他不同校准方法在改进最终的模型预测方面的性能优越性。
进一步地,采用多模型对比实验在大、中、小型样本量数据集和高、中、低维特征的数据集上综合评价不同校准方法对于机器学习建模性能的综合改进效果,验证了新方法在分类问题建模上的优越性与稳健性,且发现其在中等样本量、中等维度的数据集中表现更为优异,为改善大数据背景下系统数据分析过程的科学性、稳定性和数据分析质量的可靠性、解释性提供了一定的理论和实践指导。
三、主要结论及政策建议
通过机器学习领域中的公开数据集Boston房价数据进行数据校准的案例分析,并将新方法的校准结果与数据标准化、函数转换等共六种常用数据校准方法的校准结果进行对比,发现CCM方法在处理异常数据上存在显著优势,可以更好地展现和对比不同量纲数据的分布差异。与此同时,为验证CCM在多源异质性数据集上的校准性能的有效性和稳健性,在样本、特征等属性各异的11个公开机器学习训练数据集中,将本文所提出的CCM同主流校准方法在集成模型、距离模型和概率模型等七种不同类型的机器学习模型上的性能表现进行对比,发现CCM在平均性能、平均排名等性能评估指标上均优于其他校准方法,验证了其有效性和稳健性。最后,通过多源数据集的分组交叉比对发现CCM在数据校准上的经验结论,即在中型数据集(样本量介于900和10000之间)和中维数据集(特征量介于10到30之间)上的表现最佳。
四、边际贡献与未来拓展
边际贡献在于,本文提出的新校准方法CCM能够通过云数字特征提取、条件云发生器构建和隶属度转换三个基本流程,将原始的指标数据映射为0到1内的隶属度数值,进而有效地屏蔽原始特征数据中的异常噪声并降低系统数据不确定性对决策分析结果的影响。
未来拓展方面,可以从以下两方面进一步研究:(1)深入分析参数及数据特征的敏感性,进而确定更优的数字特征提取方式。(2)考虑采用其他非结构化和定性数据集进行更加细致的稳健性验证.
本文摘编自《系统工程理论与实践》2025年,第45卷,第9期论文《基于云模型理论的数据预处理及校准分析方法研究》(点击题目链接全文);
作者:李海林1, 博士, 教授, 研究方向: 大数据分析与智能决策;周文浩1,2,*, 博士研究生, 研究方向: 数据科学与创新管理;吴炳毅1, 研究方向: 数据挖掘;万校基1,副教授, 研究方向: 数据挖掘
1. 华侨大学 工商管理学院, 泉州 362021
2. 莆田学院 商学院, 莆田 351100