图源百度百科
摘要:针对医保欺诈识别中欺诈样本与正常样本之间的高相似性、区分度不高问题以及边缘正常样本的迷惑性问题, 本文提出了基于孤立损失(ISolation loss)和深度自编码器(Deep AutoEncoder)的医保欺诈识别算法(ISDAE). 该算法针对边缘欺诈样本和稀疏欺诈样本的易隔离性, 提出了样本的孤立度度量, 旨从特征分布角度量化分析两类样本的差异. 在此基础上, 利用DAE对医保线性和非线性特征的挖掘能力, 并综合考虑边缘正常样本对模型训练的干扰, 在潜在特征空间中定义了孤立损失以实现中心正常样本的聚集和边缘正常样本的分离, 从而增大欺诈样本和正常样本的差异; 然后, 通过集成孤立度值和重构误差来评估样本的欺诈程度, 提高模型的欺诈识别性能. 最后在天池医保数据集上的实验结果显示,本文所提方法的欺诈识别能力优异,性能表现稳定.
关键词:医保欺诈识别;孤立损失;深度自编码器;无监督学习
一、研究背景与意义
医疗保险是国家政府为了保障公民在医疗保健方面费用而设立的一项社会保险制度, 然而在利益驱使下各种医疗欺诈行为层出不穷, 给医保审核人员的监管工作带来巨大挑战. 由于现实中医保标签获取成本高、难度大, 具有高灵活性、高适应性的无监督异常检测方法受到重视, 其可划分为浅层异常检测方法和深层异常检测方法. 前者难以捕获复杂的非线性关系, 导致其在处理高维或线性不可分的数据时性能表现不佳. 为此, 深度学习方法被引入到异常检测中, 其可以通过复杂的神经网络结构学习高维数据的潜在特征表示, 从而更准确的识别异常数据. 特别地, 由于深度自编码器DAE(Deep AutoEncoder)对线性和非线性特征的挖掘能力, 目前无监督深度异常检测方法的主流思想是DAE.
虽然DAE相关方法在无监督异常检测中具备一定优势, 但其应用于医保欺诈识别领域仍存在一些挑战. 一方面, 现有基于DAE的异常检测方法通常将欺诈样本视为离群点, 并在潜在空间中利用距离或密度方式度量异常样本和正常样本之间的特征差异. 然而, 由于医保欺诈者的伪装性, 使得欺诈样本与正常样本之间的区分度不高, 因而通过距离或密度方式难以区分这两类样本. 另一方面, 在医保数据中欺诈样本往往会紧密分布在正常样本周围, 使得边缘正常样本的特征信息存在一定迷惑性. 但是, 现有DAE方法未考虑到这部分数据的质量, 从而导致其识别效果不佳.
因此, 在综合考虑DAE的重构误差和医保数据中欺诈样本的分布特点下, 研究无监督的医保欺诈的识别方法, 一方面, 对于有效刻画欺诈样本和正常样本的特征差异, 克服医保欺诈者的伪装性, 丰富医保欺诈识别领域的研究方法, 具有积极的理论意义; 另一方面, 可以为医保智能审核系统的构建提供技术支撑.
二、主要内容
为了解决上述问题, 有效识别出欺诈数据, 本文利用孤立损失和深度自编码器构造了医保欺诈识别算法ISDAE.
首先, 由于正常医疗记录通常聚集在中心, 而欺诈医疗记录广泛地分布在边缘区域, 基于距离的测算方式可能无法找到合适质心点以全面辨别边缘欺诈样本. 而孤立森林方法中的隔离理念可以从稀疏度和位置分布角度实现欺诈点的识别, 无需密度和距离的测算. 该方法认为欺诈样本比正常样本更容易被隔离出来. 因此, 本文基于孤立森林中平均路径长度的倒数构造样本的孤立度度量方式, 旨从特征分布的角度来区分欺诈样本和正常样本.
其次, 由于欺诈参保用户的伪装性使得该类数据会紧密地分布在正常样本的边缘, 甚至与正常样本重叠. 在这种情况下, 边缘正常样本的信息往往会干扰深度自编码器的训练学习, 导致边缘欺诈样本与正常样本的重构误差值之间差异较小, 进而削弱编码器对边缘欺诈样本的识别能力. 因此, 仅依赖重构误差的深度自编码器难以有效挖掘出欺诈参保用户, 需要进一步增大边缘欺诈样本和正常数据之间的分布差异. 而上述孤立度量能促进编码器对这两类样本特征分布差异的学习, 其通过刻画孤立样本的难易程度,分辨医保欺诈数据和正常数据. 基于此, 本文在潜在特征的基础上提出孤立损失, 并与重构误差结合, 旨在学习正常复杂模式的同时, 增大边缘可疑样本集的孤立度值以实现可疑样本的稀疏化和边缘化, 增加边缘欺诈样本和正常数据之间的差异, 提高模型的异常检测性能.
最后, 在测试阶段, 本文从重构误差和特征分布两个角度对样本的欺诈程度进行综合评估.
三、主要结论及政策建议
针对医保数据中欺诈样本和正常样本的高相似性以及训练集中正常样本的质量, 本文在DAE的基础框架上, 提出了基于孤立损失的医保欺诈识别算法ISDAE. 该算法中的孤立度度量通过综合分析潜在空间中样本的位置分布和稀疏情况来量化正常样本和欺诈样本之间的特征差异, 从而识别隐蔽性高的欺诈样本. 同时, 由于训练集中边缘正常样本信息的迷惑性, ISDAE方法将定义的孤立损失引入到DAE的重构误差中, 旨在减少模型对边缘正常样本的学习. 为了验证所提方法的有效性, 本文从直观结果的分析、对比实验、消融性实验以及参数敏感性实验来测试本文ISDAE方法在医保欺诈识别中的性能表现.
本文的主要结论如下: (1) 本文损失函数中重构误差和孤立损失是不可或缺的组成部分. 其中, 孤立损失能有效识别数据集中的可疑样本集(边缘样本和稀疏样本)实现该样本集的有效稀疏化和边缘化, 增大欺诈样本和正常样本之间的差异; 重构误差有助于模型学习正常数据的特征, 从而判别出与正常数据不同的欺诈样本. (2) 本文欺诈程度评估中重构误差和孤立度度量的结合是必要的. 其中, 孤立度度量是从稀疏程度和位置分布角度综合量化样本的欺诈性的, 其能进一步提高本文模型的欺诈识别能力. (3) 与现有典型异常检测方法LOF、OCSVM、ISF、DAE、LAKE和UNARE的对比结果显示, 本文方法ISDAE与其余其它六种对比方法之间存在显著性差异, 其欺诈识别能力明显优于其它对比方法. 因此, 本文提出的ISDAE方法可以为医保稽核人员提供关键、准确的预警信息, 从而降低由医保欺诈带来的经济损失, 保障医保制度的稳健运行.
四、边际贡献与未来拓展
本文的主要贡献如下: (1) 基于欺诈样本易被隔离的思想, 本文在DAE的潜在特征空间中利用孤立森林方法构造了孤立度度量, 其能从隔离的难易程度来有效量化欺诈样本和正常样本之间的差异; (2) 本文定义了孤立损失函数来减少模型对边缘正常样本的学习, 实现中心正常样本的聚集和边缘正常样本的分离(即可疑正常样本), 增大两类样本之间的差异; (3) 本文同时从样本的孤立度值和重构误差来综合量化样本的欺诈程度, 以提高模型的欺诈识别性能.
虽然本文提出的方法在医保欺诈识别中展现出一定优势, 但其忽略了欺诈样本的类型. 在医保欺诈识别领域, 医保欺诈类型的确定可以帮助医保机构和监管部门对欺诈的根本原因进行追踪检索, 进而明确调查方向并制定相应解决方案, 提高稽核人员的审查效率. 因此, 未来研究将重点关注医保欺诈样本的分类问题.
五、写作、投稿过程的心得体会
本研究的目的是为我国医保智能审核体系的建立提供理论基础和技术支撑, 维护医保基金的安全, 促进医保体系的健康、稳定发展. 优秀匿名审稿专家提出的专业意对文章整体质量的提升和团队后续的研究都起到了重要的推动作用和引导作用. 根据匿名审稿专家的意见, 在论文中对公式和算法的描述进行了针对性的修改, 并在引言部分重新梳理了异常检测领域的相关研究进展, 提升了论文的逻辑性和可读性. 匿名审稿人还建议证明模型中每一部分工作的合理性, 为此我们在原稿中增加了消融性实验来验证ISDAE方法中每个模块对其整体识别性能的影响. 此外, 针对匿名审稿人在损失函数、参数设置、显著性检验等方面的建议, 作者已进行了修改和完善. 在此,我们要特别感谢编辑部的各位老师和全体审稿专家,他们以严谨负责的态度和耐心细致的工作,为文章提出了宝贵的建议和意见!
本文摘编自《系统工程理论与实践》2024年,第44卷,第11期论文《基于孤立损失和深度自编码器的医保欺诈识别算法》(点击题目链接全文);
作者:柳叶, 博士研究生,研究方向:深度学习,异常检测;王亚楠,博士研究生,研究方向:知识图谱;候文慧,博士研究生,研究方向:医疗诊断;刘慧(通信作者), 硕士生导师,教授,研究方向:风险管理,应急管理;王坚强,教授,博士生导师,研究方向:决策理论与应用,机器学习
中南大学 商学院, 长沙 410083