基于时间序列特征表示与信息融合的ICU患者死亡风险预测方法

来源:《系统工程理论与实践》时间:2023-03-03

摘要:ICU中患者的死亡风险预测被认为是重要临床预测任务之一,准确地预测ICU患者的死亡风险可提供有关患者的病情信息,便于及时采取措施来干预,同时有助于有限医疗资源的有效分配。ICU患者病情不稳定,需要密切的监护,大量临床数据被相关监测设备采集、记录和保存,为ICU患者的相关临床决策提供重要参考。以ICU患者30天死亡风险预测为研究目标,基于重症监护医疗信息市场III数据库,构建ICU患者死亡风险预测模型,分析相关影响因素,以支持医疗实践中的临床决策。首先提取相关患者数据并进行预处理,采用多种统计量对时间序列特征进行表示;随后选取基分类器,基于融合遗传算法和模拟退火算法的混合优化算法对相应基分类器进行特征选择,基于信息融合思想采用集成学习方法将分类器以装袋方式进行集成,采用真实数据对模型进行验证,并基于准确率、F_1评分和AUC三个评价指标与经典死亡风险预测模型进行比较,展现出较好的性能;最后基于信息融合对ICU患者死亡风险重要影响因素进行分析,发现集中趋势类统计量更为重要,为临床决策提供参考。
关键词:患者表示;死亡风险预测;遗传算法;信息融合;可解释性

一、研究背景与意义

重症监护病房(Intensive Care Unit,ICU)是为重症或昏迷患者提供设备和隔离的场所,接收需要精心监测且病情严重的患者,致力于为其提供有针对性的监测和护理。ICU中一个重要的临床任务是患者死亡风险预测。对患者死亡风险的精准预测,可识别死亡风险高的患者,同时可尽早采取相应措施来提高患者的生存概率,此外对于医院资源的规划等方面也具有重要的参考价值。在过去的几十年中,不同的评分系统得以发展来预测ICU患者的死亡风险,如APACHE、SAPS、MPM以及SOFA等,在临床上取得广泛的应用。由于指标、模型简单导致预测精度较低,传统的评分机制已难以满足临床需求。因此,提高ICU患者死亡风险预测准确性的研究在不断的展开。

ICU中配备先进的监测设备,会对患者的多项指标进行监测和记录,产生大量的数据,为患者的病情评估及结局预测提供支持。此外,数据驱动的电子健康服务发展迅速,机器学习技术为医疗相关预测任务提供重要方法支持,基于机器学习进行ICU患者死亡风险预测成为一种新的思路。基于机器学习预测ICU患者死亡风险时需要对患者进行表示、构建预测模型并解释结果,本文也是基于这三个重点问题展开研究。

二、主要内容

(1) 基于统计量的ICU患者时间序列数据表示
基于统计量的ICU患者时间序列数据的表示可将不同采样频率、传统机器学习模型难以适用的ICU患者时间序列数据转化为等维向量,具有简单易操作、可解释强等特点。现有研究中仅采用简单的统计量或统计量组合来对其进行表示,具有一定主观性,缺乏选择依据。本文为了多视角刻画时间序列数据分布特征,参考统计学中关于数据描述的数值方法,考虑采用集中趋势、离散程度以及分布的形状三类统计量对其进行刻画。

(2) 基于混合优化算法SAGA的基分类器的特征选择
ICU患者具有众多生理指标,且某些生理指标在特定时间窗口内有多个测量值,而这些特征之间可能存在相关或者冗余,可能进一步增加误差而降低预测效果。此外,过多、过细的特征可能导致模型过拟合,导致模型泛化能力较差。因此,针对不同分类器,需要选择特定的特征来对患者进行表示。为了求得更加稳定的最优特征组合解,本文在基于遗传算法特征选择的基础之上,结合模拟退火算法思想,引入模拟退火算法中的退火准则来控制解的更新,提高解的稳定性,简称为SAGA算法。

(3) 基于信息融合的ICU患者死亡风险预测及影响因素分析
信息融合可用于从多个信息来源(例如多个模型等)中提取和聚合信息,以使用某些函数创建聚合值。同时,信息融合可以通过组合多个源来降低单一源的不确定性和偏差,以获得更好的预测估计。本文采用三类统计量对ICU患者时间序列数据进行表示,结合其他类型数据,形成ICU患者死亡风险预测原始特征集。在此基础上,本文融合特征层和模型层,基于SAGA算法和集成学习构建ICU患者死亡风险预测模型。

为进一步提高模型预测结果的可解释性,基于构建的ICU患者死亡风险预测模型,本文采用非线性信息融合方式,对基分类模型所采用的特征集进行融合,将所有基分类模型都采用的特征作为ICU患者死亡风险重要影响因素,加以归纳分析,进一步丰富临床知识,为临床决策提供参考。

三、主要结论

将提出的模型分别与单模型、集成学习模型等经典死亡风险预测的机器学习模型进行对比,并展现出较好的性能。同时基于构建的ICU患者死亡风险预测模型,借鉴信息集成思想,定义信息集成方式,将基分类器都采用的特征定义为重要特征,对影响ICU患者死亡风险重要因素进行分析归纳,得出ICU患者时间序列数据的标准差、中位数、Q3、Q1以及众数统计量对于其死亡风险的预测具有重要参考价值。此外,集中趋势类统计量在ICU患者死亡风险预测任务中更为重要,可以重点关注。本文对ICU患者死亡风险重要因素进行分析,将进一步丰富临床知识,为临床的ICU死亡风险预测及相关临床决策提供支持。

四、边际贡献及未来拓展

边际贡献

(1) 基于统计量对患者时间序列数据进行表示。
在患者表示层面,大量研究基于统计量的方法对患者时间序列数据进行表示。已有研究大多仅采用简单的统计量或其组合进行表示,其选择缺乏方法支持。本文在已有研究基础上,以最大化预测准确度为目标,采用SAGA算法针对不同基分类器对患者特征进行选择,抽取不同分类器的最优特征集,实现对ICU患者时间序列数据进行表示,同时也为基于统计量的时间序列数据表示提供方法参考。

(2) 基于SAGA算法对基分类进行特征选择,然后基于装袋法集成基分类器。
本文设计了基于SAGA算法和投票法的集成学习模型框架。首先基于SAGA算法,对特定基分类器进行特征选择,得出特定基分类器的最优特征集;随后将基分类器按照自身最优的特征集抽取特征数据,分别对ICU患者死亡风险进行预测;最后,将多个基分类器的分类结果加权集成,实现对ICU患者死亡风险进行最终预测。

(3) 采用真实数据进行验证,对比相关模型并取得较好性能。
本文采用真实医疗数据库MIMIC-III进行基于时间序列的统计量的ICU患者表示,对本文提出的ICU死亡风险预测模型进行验证和评估,依据准确率、F_1以及AUC评分评价指标,分别与单模型、集成学习模型等经典死亡风险预测的机器学习模型进行对比,并展现出较好的性能。

(4) 对影响ICU患者死亡风险重要因素进行分析,进一步丰富临床知识,为临床决策提供参考。
基于构建的ICU患者死亡风险预测模型,借鉴信息集成思想,定义信息集成方式,将基分类器都采用的特征定义为重要特征,对影响ICU患者死亡风险重要因素进行分析归纳,得出ICU患者时间序列数据的标准差、中位数、Q3、Q1以及众数统计量对于其死亡风险的预测具有重要参考价值。此外,集中趋势类统计量在ICU患者死亡风险预测任务中更为重要,可以重点关注。本文对ICU患者死亡风险重要因素进行分析,将进一步丰富临床知识,为临床的ICU死亡风险预测及相关临床决策提供支持。

未来拓展

后续研究可以探索循环神经网络对患者进行深度表示,同时本文仅关住ICU患者的死亡风险预测任务,还有其他重要的临床预测任务,如再入院预测任务、疾病预测任务等,可进一步拓展研究。

 

本文摘编自《系统工程理论与实践》第42卷第10期论文《基于时间序列特征表示与信息融合的ICU患者死亡风险预测》(点击题目链接全文)
作者:徐良辰,大连理工大学系统工程研究所博士研究生;郭崇慧,大连理工大学系统工程研究所