关于用户数据, “熊掌”和“鱼”可兼得吗?

来源:《系统工程理论与实践》时间:2021-04-20

导读

在大数据和新兴电子商务发展过程中,用户数据量猛增,这不仅构成了企业的重要资源,同时也是重要的社会资源。因此,在用户数据开放与共享这样动力的推动下,便给个人隐私安全带来了极大挑战。特别是在近年来多个互联网和社会化媒体平台屡次出现重大数据泄露问题,使得政府、企业和个人都越来越重视数据安全和隐私保护。

 

于是,数据匿名化就成了最常用的保护数据的办法,得到了广泛的采用。学者们提出了多种隐私保护算法应用于各种类型的用户数据, 以满足实际应用中的数据分析需求;这样做就带来另一种后果,匿名化处理后会不同程度给信息的正当使用也带来损失,其影响数据应用效果,甚至会很大。

 

为了解决数据效用与个人隐私之间的矛盾, 本文设计一种新的优化算法,在保证数据匿名效果的前提下,最大化数据的效用。

 

本文首先将数据记录的匿名处理过程转化为数据记录与候选泛化函数之间的优化分配问题,利用整数规划方法实现最小化匿名数据集的信息损失,接着结合问题特征设计快速求解算法优化计算时间,最后通过实验分析证明了算法的有效性和性能。

 

简而言之,实现了对数据应用价值和隐私保护之间矛盾的有效协调,不仅对电子商务数据隐私保护研究具有重要的理论价值,对于实际应用,亦有重要参考价值。


一、研究背景与意义

移动互联、物联网和云计算等新一代信息技术革新,推动了具有移动性、虚拟性、个性化、社会性等鲜明特征的新兴电子商务的蓬勃发展。在新兴电子商务视域下,一方面用户数据在各行各业中如智能制造、战略运输、新零售等产生重大应用,另一方面用户数据在当前安全生产活动和系统安全体系研究中扮演重要角色。企业利用各种渠道汇集用户全景数据,包括用户基本信息、交易信息、偏好信息、社交信息和位置信息等,进行共享和利用。消费者在享受高效便捷服务的同时,个人隐私安全受到极大威胁。近年来个人隐私泄露事件不断发生,例如全球最大社交网站Facebook因用户数据泄露的丑闻引发业内巨大震动、搜索引擎巨头Google的智能医疗项目因涉及数千万患者身份及医疗隐私的泄露风险而被患者起诉等。隐私安全成为用户数据应用的关键瓶颈。如何解决好用户数据应用与个人隐私保护之间的矛盾成为目前新兴电子商务发展中被普遍关注以及亟需解决的研究热点问题。

用户数据一般可表示为数据表形式,每条记录对应一个个人,包含多个属性值。与个人隐私相关的属性可以分为三类:1) 显示标识符属性(EI),例如姓名等,根据隐私法规规定,用户数据在发布或共享之前需要删除所有的EI属性;2) 准标识符属性(QI),例如性别、年龄、教育程度等,攻击者可通过多个QI属性的组合信息,对记录的身份进行识别, 这类隐私泄露现象在用户数据应用中经常发生;3) 敏感属性(SA), 例如私密商品的购买行为等,在一些包含SA属性信息的用户数据中攻击者容易推测出个人的敏感信息。为了防止隐私泄露,学者们提出以数据脱敏或隐私净化为目的的数据匿名方法,它是指在一定的隐私风险容忍范围内将数据进行某种程度的泛化,从而破坏记录与个体之间关联的唯一性,降低隐私泄露的风险。数据匿名方法适用于结构化数据、文本数据、轨迹数据、社会网络数据等多种类型的数据,可满足众多实际应用如数据查询或数据分析的需求。k-匿名原则是当前最重要也是最有用的隐私度量之一,它要求数据集中每条记录至少与其它k-1条记录的QI值完全相同,使得每条记录被准确识别出身份的概率不超过1/k。k-匿名不仅容易转换或扩展成满足其它隐私要求的度量(如L-多样性、t-接近度等),也适用于目前几乎所有类型的数据共享或新的数据应用场景(如基于位置的服务)等。


图片来源网络

在保护隐私的前提下,最大限度保证数据的应用价值是隐私保护研究的核心工作。学者们针对特定目标或通用目的下的应用场景提出多种效用度量。在特定目标下如分类或预测应用时,通常采用如信息增益、分类精度或预测误差率等作为数据效用的评价依据。在通用目的下,学者们普遍采用标准确定性惩罚(NCP)或全局确定性惩罚(GCP)来评估数据效用,分别用于衡量数据集在所有准标识符属性上的总体和平均信息损失量。上述两种度量都没有考虑各属性要素在用户隐私感知程度上的差异。在实际中,消费者对各个属性所包含的隐私含义的关注程度和敏感程度不同,因此有必要区分不同属性对用户隐私以及数据效用度量的影响。本文面向通用目标的数据隐私保护,引入属性权重因子,提出一种加权的信息损失度量,实现对用户数据效用更为准确的评估。

在数据匿名过程,通常首先把数据集按照k-匿名原则划分为若干个准标识符组,每个组中至少包含k条记录, 然后依次对每个组内的记录进行数据泛化。准标识符组划分是为了把QI值相近的记录组合在一起进行匿名处理,从而降低信息损失。Meyersen和Williams证明了实现最优化k-匿名是NP-hard问题。在给定k-匿名隐私保护力度下,国内外学者针对匿名数据的效用优化问题进行了深入研究。传统方法要求把单个准标识符组中所有记录的QI值泛化成相同的值,简称为同构泛化模式。同构泛化模式下,泛化方式基本相同,匿名数据的效用取决于不同的数据划分方式。学者们相继提出了基于KD-树的Mondrian方法、基于聚类的自顶向下和自底向上的划分方法、基于属性阈值排序的划分方法等,研究表明后者在计算效率上和信息损失性能上都优于其它数据划分方法。

近年来,部分学者提出允许在任意准标识符组中各个记录的QI匿名值可以不完全相同,简称异构泛化模式。异构泛化模式下,每条记录的QI值被至少k条匿名记录的QI值域所覆盖,也就是说,每条记录在身份上可以匹配至少k条匿名记录,因此仍然满足k-匿名。相较于同构泛化模式,异构泛化模式使得记录的QI值被处理成较小粒度的匿名值,因此会产生较低的信息损失。Wong等人提出环概化方法,把准标识符组中的所有记录排成环状序列,并依次将一条记录与它之后k-1条记录构成的QI多维属性区间作为该条记录的QI匿名值。He等人提出基于半同构泛化算法,把准标识符组中的记录分成若干个样本量均等的小分组,以这些小分组为单位进行环概化,保证每个记录的QI匿名值对应于累加起来不少于k条记录的多维属性阈值。由于对各条记录QI值对应的多维属性区间的搜索策略有较大的局限性,这两种方法分别为每条记录只提供一个和几个备选泛化策略,使得它们的泛化策略集合并不是完备的。于是,基于不完备泛化策略集合的匿名过程,无法保证实现最小的匿名信息损失。因此,在匿名思想下,如何实现效用最大化的用户数据隐私保护,仍然有很大的研究空间。


二、主要内容

为了保护个人隐私,数据拥有者要对用户数据进行k-匿名处理。数据匿名过程必然造成不可避免的信息损失。本研究讨论的是在给定隐私保护水平下如何实现效用最优的匿名结果,也就是要求数据集在满足k-匿名隐私要求的同时产生最小的信息损失。在已有数据划分方法产生的准标识符组基础上,本文提出基于单个准标识符组的最小化信息损失匿名方法,主要包括以下四个环节。

首先,鉴于QI属性阈值(即属性包含的不同取值的个数)对信息损失的差异性影响,本文提出一种综合属性阈值与属性数值的距离度量,对记录进行有效的排序,这一排序结果会影响后续泛化函数的结构和最终匿名结果。

其次,泛化的过程就是为每条记录找到一个至少由k条记录集合所构成的有界QI多维属性域来概化它的原始值,使用泛化函数来表示这一过程,因此本文选择记录集合数目为k且包含它本身在内的所有泛化函数组成的集合作为每条记录的候选泛化函数集合。

再次,建立以最小化总信息损失为目标、对泛化函数和记录进行分配的优化模型,这是一个决策变量和约束条件数目均固定的线性整数规划模型,在多项式时间内是可解的;为了提高计算效率,分析问题结构可知,它亦是一个在准标识符组函数候选集合中可重复地抽取n个泛化函数分配给n条不同的记录的过程,因此可以简化为求解一个泛化函数基本组合(即一个指示所有函数是否被使用的值构成的向量)与将其重复执行若干次数的问题,根据整数限制的条件,可以启发式地快速寻找出几种可行解,并从中比较出最优解。

最后,上述模型所得的最优解只表示每个泛化函数使用于记录的次数,出于弱化隐私风险的考虑,要把每个泛化函数与它对应的记录进行一对一随机分配,本文设计了一种简单的随机分配机制,仅需对第一条记录进行随机选择,而对后续记录可按照泛化函数中记录的序列关系依次进行分配 。在随机分配完成的基础上,对每条记录使用相应的最优泛化函数执行匿名处理。


三、主要结论与政策建议

在不同数据集上将本文算法与环概化、半同构泛化等基准算法进行比较,有以下主要结论:在数据效用方面,本文算法产生相对较小的信息损失,这是因为考虑属性阈值的记录排序过程和基于完备候选函数集合的最优匿名模型共同起到了降低信息损失的作用,而且前者相对后者对于降低信息损失的贡献度更大一些;在不同数据规模下,随数据集的样本量越大对匿名数据集的信息损失的减少程度变大;在不同隐私保护水平下,随着隐私保护力度增大对匿名数据集的信息损失的减少程度变小;在加入属性权重的因素后,本文方法具有鲁棒性,并且随着数据集中核心隐私属性权重的增大所产生的匿名信息损失呈增加趋势;在计算效率上,本文算法在处理大规模数据集的耗时上有显著优势。在对数据可用性有较高要求以及数据集规模较大的数据隐私保护需求时,可优先使用本文提出的数据匿名算法。  


四、边际贡献与未来拓展

本文研究有以下主要贡献:1)对包含数值型和类别型属性的数据,提出了一种考虑属性阈值优先级和属性值相似性相结合的记录距离度量公式,能够快速实现对记录的排序,在数据匿名过程中基该记录排序方法对数据效用有较大贡献;2)在数据匿名处理过程中引入运筹学思想,将其转化成记录与候选泛化函数之间的优化分配问题,进而建立整数规划优化模型,实现在满足数据匿名目标的前提下最大化数据效用;3)结合数据匿名模型的结构特征,设计快速求解整数规划问题的策略,大大降低了匿名算法的计算时间复杂度,有利于将该算法推广应用于大规模数据集的隐私保护问题。

在未来拓展方向上,联系实际需求,可考虑两个相关方向:一是为更严格的隐私保护模型如L-多样性、t-接近度设计效用最大化的优化算法,二是为更复杂的数据类型如位置数据或社会网络数据的隐私保护设计针对性的优化算法。

 

本文内容摘编自《系统工程理论与实践》第41卷第2期论文《基于最小化信息损失的用户隐私保护方法》,论文全文下载请点击链接:http://www.sysengi.com/CN/abstract/abstract112695.shtml

作者:杨海芳,大连理工大学经济管理学院,博士研究生,研究方向数据挖掘与商务智能、消费者行为与隐私安全;通信作者:王明征,浙江大学管理学院,教授、博士生导师,研究方向数据挖掘与商务智能、大数据分析与统计优化、电子商务与物流管理。