复杂数据多元统计分析方法及其应用

来源:系统科学进展时间:2020-09-21


1.引    言

随着信息技术的快速发展和大数据时代的来临,数据信息的收集与存储变得极为便捷。在许多公司、银行、金融市场、政府机构或者电商企业中,经过信息系统的持续应用和多属性业务数据的长期积累,已经形成规模巨大、亟待开发的全量、全程数据。如何灵活运用这些数据宝藏,快捷有效地透析系统的本质特征与运行规律,并为复杂系统的状态诊断、趋势预测以及调控决策带来全新的研究视角,这已经成为经济管理领域中的重要课题,同时也将催生新一轮统计数据建模理论与方法的创新高潮。

面对如此海量、高维的异质信息数据集合,要从理论上探讨新的多元统计建模方法,首先是需要加强对海量观测数据的高效分析与建模能力。在传统的统计建模问题中,一般使用的观测点数量往往只有几十、几百,多则可能达到几千。然而在当今经济管理领域的问题研究中,观测数量往往非常大,动辄几万、几十万,甚至几百万、上千万。使用传统统计模型处理如此惊人的样本容量,一方面会带来巨大的计算压力,同时还会丧失分析结果的可视化与可解释性。为解决上述问题,一种常用的方式是针对现有的各种多元数据分析模型,分别去研究如何实现它们的并行算法与增量算法,并结合不断进步的计算机分布式计算技术,来提高整体的计算效率。而另一种处理方式则是先采用分类分析方法,将海量观测数据划分成若干大类,然后对每一类数据进行合理的概要描述,用以代表该类数据中的关键信息。例如,可以用区间数据、直方图数据、分布数据(统称为符号数据,svmbolicdata: Diday (1988); Billard and Diday (2003》来概括一组数据。比如在对股票市场进行分析时,若决策者希望从全局层面上研究股票市场特征,而不关心个股的表现,这时就可对股票按板块打包,然后用直方图数据来刻画每个板块股票在收益率、市盈率等指标上的取值分布;而对于一组定性数据,则可以通过对分类后的观测点进行频次统计来形成成分数据(compositional data: Aitchison (1986》。例如在对电影博文数据进行分析时,可以通过统计观众“喜欢、一般、不喜欢”的百分比,将定性评论整理成为可供分析的成分数据。总而言之,第二种方式就是借鉴分层管理的思想,对海量观测数据进行分类概要描述,从而力图从宏观层面上展示数据集合的全局特征与趋势规律。近三十多年来,有关符号数据、成分数据的多元统计建模的理论方法已得到长足发展,并且也被广泛应用于经济管理领域的海量数据分析。

另一个亟待解决的问题是高频数据的处理方法。目前,高频数据也已广泛存在于各种经济管理活动中。例如在中国股票市场,股票交易数据是每6秒钟收集一次;在神经经济学的研究中,脑电波的数据收集可以达到每分钟10000次以上;在北京市院前急救的数据系统中,120急救车辆的轨迹信息是每30秒收集一次;而在研究电影网的大众评价时,每天收集的网上用户评分数据也可能高达数万条。为了对这种高速流入的数据进行有效处理,Ramsav and Silverman (1997)提出了一种特殊的数据类型——函数数据( functional  data),这为研究高频数据问题带来了很多便利。例如在对股票、期货和外汇市场中的高速流动数据进行整理时,如果采用函数数据来刻画交易价格或交易量的每日运行模式,会远比仅仅使用当日的平均价格或平均交易量能更全面地反映市场的本质特征。此外,函数数据的采集也十分灵活方便,它不要求有统一的数据采集频率和时间间隔。在经典的数据分析方法中,如果要使用若干数据序列进行分析建模,则对它们的观测时刻必须是一致的。但在许多跨平台数据分析的应用问题中,经常会遇到在不同时刻采集的数据序列。例如电影网评价系统构建中,网络上的用户评分数据与网下的观影团评分数据的收集频率是不一致的。而采用函数数据就可以方便地处理此类线上  线下的信息融合问题。

由于上面提到的符号数据、成分数据、函数数据都不同于普通的实数域数据,所以它们被统称为“复杂数据”。在这样的问题研究中,人们需要对包含复杂数据的数据矩阵进行分析,这对传统的统计建模理论提出了新的重大挑战。2010—2014年,北航复杂数据分析研究中心的王惠文教授团队承担了国家自然科学基金重点项目“经济管理领域中高维复杂数据分析理论与应用”(项目编号:71031001),2015年又获批国家自然科学基金重点国际(地区)合作研究项目“海量高维混合数据的统计建模方法及其应用”(项目编号:71420107025)。在这些项目的研究过程中,课题组以经济、金融与管理领域中一些重大的数据分析问题为背景,对高维复杂数据统计分析中的一些基础性与前沿性的理论问题开展研究,发展适应大规模、高维复杂数据的新型统计分析方法。目前主要的研究进展可以简要归纳成以下几个方面。


2. 符号数据多元分析方法研究

2.1  基于全信息的区间数据主成分分析方法

人们对海量观测数据问题的关注由来已久。20世纪80年代,国际著名分类学家Didav (1988)提出处理大规模数据的符号数据分析方法(svmbolic data analvsis,简称SDA)。SDA的主要思路是运用“数据打包”的思想,首先对观测数据进行分类,然后再采用区间数据(interval-valued data)、直方图数据(histogram data)或分布数据(distributional data)等,对每一类数据进行概要描述。

早期的符号数据分析主要聚焦在区间数据分析方法的研究,当时的主流研究思路都采取一种“以局部信息来替代整体信息”的技术路线,缺乏较为准确的代数理论体系支撑。例如Cazes等人(1997)提出的顶点法主成分分析(vertices principalcomponent analvsis.简称VPCA)、中心法主成分分析(centers principal component analvsis,简称CPCA),以及Palumbo and Lauro (2003)提出中心点半径主成分分析(midpoints radii principal component analvsis,简称MRPCA)等。这些方法大多是仅仅利用了区间数据中的部分信息(顶点、中心、半径),而不是运用区间数据中的全部信息,因此必然会导致明显的分析误差。Gioia and Lauro (2006)看到了这些研究的缺陷与困境,为此力图给出一种基于全信息的解决方案。他们根据Moore (1966)的区间代数理论,给出了主轴和主成分方差均为区间型数据的区间主成分算法(interval principal component analysis,简称IPCA)。然而该方法在计算过程中却存在着计算量过大的问题,并且对相应的计算分析结果也难于进行解释和理解。

针对长期以来区间数据主成分分析只能使用局部信息的困境,王惠文,关蓉等( 2012)在研究中提出了一种基于全信息的区间数据主成分分析方法(complete-information-based principal component analvsis.简称CIPCA)。该方法将每一个高维区间观测点视作一个超立方体,有无限稠密的数据点均匀分布其中。基于该假设,通过数学推导,给出了区间数据的主成分分析方法。与经典的顶点法( VPCA)和中心法(CPCA)相比,由于CIPCA方法操作简单,在计算过程中保留了区间样本内部的全部信息,从而可获得更加准确的分析结果。而通过仿真实验和实际算例,也验证了CIPCA方法的建模精度有显著提高。

相关方法应用于2005年中国科学引文数据库( Chinese Science Citation Data-base,简称CSCD)共计667个学术期刊的数据分析。由于样本数量较大,直接采用经典的主成分分析技术进行处理,降维后得到的投影图并不直观(如图1 (a)所示)。而如果将样本点按照学科进行分类,并采用区间数据对原始数据进行概括,就能得到如图1 (b)所示的投影图,横轴和纵轴分别代表了期刊的引用质量和载文量,而其中每一个矩形对应于某一个学科的所有期刊在主平面图上的得分范围。显然,区间数据的投影图信息清晰,便于管理人员得到有价值的分析结论。

2.2  基于全信息的区间数据线性回归方法

作为典型的建模方法研究,课题组重点研究了区间数据的线性回归方法。在现有文献中,Billard and Diday( 2000)提出了中心法(center method,简称CM),Lima Neto and Carvalho (2008)提出了中心半长法(center and range method,简称CRM)。进一步地,Lima Neto and Carvalho (2010)还给出了带约束的中心半长法(constrained center and range method,简称CCRM)等方法。但是,上述方法在建模过程中,也都只使用了区间样本的部分信息(如中心点、半长)。此外,在预测因变量的区间数值时,CM和CRM可能会出现“下界预测值大于上界预测值”的情况。

针对上述问题,王惠文,关蓉等( 2012)提出了一种新的区间数据线性回归建模方法——全信息法(complete information method,简称CIM)。CIM方法首先给出了区间数据的点积定义和线性运算规则,并且依此推导了区间数据的线性回归模型。由于在点积定义中使用了区间样本的全部信息,因而通过CIM方法得到的参数估计值更加准确。此外,CIM方法采用了Moore (1966)的区间数据线性组合算法,可以避免出现“下界预测值大于上界预测值”的情况,这也就保证了区间数据预测值的内部一致性。

通过仿真实验和实际算例,将CIM方法与已有的中心法(CM)、中心半长法(CRM)、带约束的中心半长法(CCRM)进行了比较,验证了CIM的优越性。在其中一个二元线性回归算例中,还将CIM、CM的建模结果与分划数据的建模结果进行了对比(如图2所示,两个子图分别对应于二元模型的两个回归系数)。横轴表示分划数据的分划密度参数,圆圈是分划数据的参数结果,虚线和实线分别代表CM、CIM的建模结果。可以看到,随着分划数据量的增大,分划数据的结果趋向于CIM的结果。这一结论表明,CIM方法能够最准确地捕捉区间数据内部的全部信息,进而揭示海量数据系统的内在规律。

2.3  连续可加分布型符号数据的主成分分析方法

较长时间以来,绝大多数的符号数据分析方法创新都聚焦于区间数据,而在直方图数据和分布数据处理方面的研究却相对较为薄弱,尤其是几乎没有文献明确的针对连续型分布数据。另外,现有的直方图型符号数据的PCA,比较常用的方法是采用某种变换形式,将分布数据主成分分析问题转化为区间数据的主成分分析问题。例如,Rodriguez et a1.(2000)提出了一种将直方图数据表变换成区间数据表的方法,从而将对直方图数据的主成分分析问题转化为区间数据的主成分分析问题。Kallvth and Diday (2010)提出的直方图数据主成分分析的思路与针对区间型数据的中心法主成分的思路类似,其首先定义了直方图数据的均值,在此基础上对直方图符号数据表所对应的均值数据表进行普通的主成分分析,然后运用切比雪夫不等式将直方图符号数据转化成区间数据,从而实现样本的投影。这些分析方法也同样存在局部信息替代整体信息的问题,在计算样本协方差矩阵进行数据特征降维时容易造成重大分析误差。此外,上述方法的另一个重要缺陷是关于分布型符号数据的线性组合缺乏一个精确的算法。

针对上述问题,王惠文等( 2016)以可加分布型符号数据作为突破口,提出了基于全信息的正态分布型数据的主成分分析建模方法( principal component analvsis for normal-distribution-valued svmbolic data,简称ND-PCA),该方法同样适用于所有可加分布型符号数据。推导结果表明,与经典的针对单值型数据的主成分分析方法相同,正态分布型数据的主成分分析方法仍以方差协方差矩阵为核心,主成分的求解过程也就是方差协方差矩阵的特征值分解过程,并且所得到的正态分布型的主成分与经典的主成分具有同样的性质。更重要的是,由于所研究的分布对象具有分布可加性,可以得到精确的主成分投影表达公式。

文章还通过仿真实验说明了经典的“中心法”存在信息利用不充分的本质缺陷,而该文的方法在计算过程中考虑了符号型数据的全部信息,计算结果相比其它方法更为准确的。该文还运用正态分布型数据对中国股票市场各个风格板块加以概括,分别是大盘成长(L-G)、大盘价值(L-V)、中盘成长(M-G)、中盘价值(M-V)、小盘成长(S-G)和小盘价值(S-V),并采用正态分布型数据的主成分分析方法探讨了2010年7月26日到2011年7月24日中国股票市场的运行情况(如图3所示)。分析表明,这一期间的中国股市存在以下现象:流通市值越大的股票投资价值越高,但实际交易并不活跃;成长类股票的风险高于价值类股票的风险,但是收益率却不一定高,市场中存在风险收益不对称的现象;大盘成长类股票的收益率最高而风险较低,在当时的中国股票市场是非常值得投资的。上述研究表明,该文提出的方法可以有效挖掘出数据内部隐含的特征规律。 

2.4  混合分布型符号数据的主成分分析方法

区间数据和分布数据是符号数据分析领域应用最为广泛的两种数据类型。从理论上讲,区间数据其实只是分布数据的一个特例。然而在早期的符号数据分析研究中,这两种数据分析方法的研究发展却是完全割裂的。Verde and Irpino (2010)也意识到同样的问题,试图建立一种直方图数据的代数理论,并将区间数据作为直方图数据的特例。其主要思想是用分位数函数来表达分布数据单元,然后基于Wasserstein距离(Wasserstein (1969))来测量样本之间的误差平方和,并以此预测直方图值数据。由于该模型是基于直方图的分位数函数,因此如果当回归系数为负值的时候,可能导致模型的结果不再是一个分位数函数。为了表达因变量与自变量之间的负相关关系,Dias and Brito( 2011)在建立直方图数据的线性回归模型过程中,同样基于直方图数据之间的Wasserstein距离,并在线性回归模型中引入对称直方图,但是该模型也没有解决回归系数为正的约束。此外,Irpino and Verde (2015)又引入了一个两阶段模型来改进基于直方图数据分位数函数的Wasserstein距离方法。虽然可以通过最小化距离函数来得到模型的参数估计,然而由于分位数函数本身在普通加法和数乘运算上不具备线性空间的结构,因此得到的估计系数容易失效。

除此之外,以往方法普遍要求符号数据表中的所有数据单元必须是同一种类型(区间数据、直方图数据、分布数据)。但是,在很多实际问题中,数据表中分布类型经常是混杂的。事实上从理论上讲,区间数据和直方图数据其实都是分布数据的特例。为了进一步扩大符号数据多元分析的应用范畴,陈梅玲等( 2015)以连续随机变量的数字特征积分计算理论为基础,给出混合分布型符号数据变量的均值、方差、协方差的定义,以及这类符号数据的线性组合计算方法,并依此推导了混合分布型符号数据的主成分分析方法( Probabilistic Symbolic Principal Component Analvsis,简称PSPCA),这种新方法允许数据表中的每一个数据单元都服从不同的分布类型,因此具有更加普遍的适用性。特别有意义的是,与国际上广泛使用的Moore代数相比,PSPCA方法的符号数据线性组合计算方法更加精确有效,信息损耗明显更小。

    为了说明方法的实际应用价值,以2007年《科学引文索引》( Science Citation Index,简称SCI)收录期刊为研究对象,将期刊引用报告网络数据库(Journal Ci-tation Reports,简称JCR)提供的6337种SCI期刊划分成数理科学、化学科学、生命科学、地球科学、工程材料科学、信息科学、管理科学以及综合期刊8类,选取了总被引频次、影响因子、五年影响因子、载文量、文章影响力5个指标分析各个学科的期刊的发展水平。分析结果表明各个学科在不同类别的指标上的表现是不同的,呈现不同的分布特征(如图4所示)。特别地,综合期刊在第一主成分的得分有着比较明显的分化,存在两个峰值。研究结论表明,使用混合分布型符号数据的主成分分析方法进行分析,不仅保留了符号数据在处理大规模数据中可以提升数据可视化程度的优势,而且可以精确地反映每个符号对象所包含的分布信息。

3.成分数据多元分析方法研究及其拓展

3.1  多元成分数据的主成分分析方法

成分数据( compositional data)在自然科学、工程技术以及社会经济管理等各个领域均有着广泛的应用。例如,在材料领域,成分数据可以用来反映金属材料所含化学元素的比例;在气象领域,成分数据可以用来反映大气的结构;在经济领域,成分数据可以用来反映投资结构、产业结构、居民消费结构;此外,某社区的性别比例、人体血液成分、药剂成分、地质学科中岩石的矿物组成等均可以用成分数据进行表示;成分数据还可以用来概括大规模的复杂数据,挖掘复杂数据的内部信息。与普通数据相比,成分数据要求满足各分量非负且其和等于1的约束条件,这一约束条件给有关成分数据的统计分析带来诸多困难。

具体用数学方式表达,任意一个D水平的成分数据可以表示为一个向量Z=[Z1,Z2,……ZD]’∈SD,SD为Aitchison单形空间(Aitchison  (1986)),即D水平的成分数据集。其中,Zi(i=1.…,D)称为成分数据Z中的元素,且满足0≤Xi≤1,∑_(i=1)^D▒zi=i的定和约束条件。为了消除定和约束的影响,已有文献通常在对成分数据统计分析之前,对其进行对数比变换。目前已有的对数比变换方法主要有三种:可加对数比变换(additive logratio transformation,简称alr),中心化对数比变换(centered logratio transformation,简称clr),以及等距对数比变换(isometric logratio transformation,简称ilr)。这些对数比变换可以将成分数据从单形空间变换到欧式空间,然后利用经典统计分析方法解决成分数据问题。

对于成分数据的主成分分析研究,已有文献主要是针对一元成分数据,即将成分数据的分量作为变量进行讨论。Aitchison (1986)最先利用成分数据分量的少数几个线性组合来捕捉成分数据里面所含有的信息,提出了成分数据的主成分分析。继而,Aitchison and Greenacre( 2002)采用中心化对数比变换和可加对数比变换对成分数据的主成分分析进行研究,但两种变换方法均不适用于稳健的主成分分析。Filzmoser (2009)提出利用等距对数比变换进行稳健的协方差估计和稳健的主成分分析。然而,对于将成分数据整体作为变量的多元成分数据的主成分分析研究相对较少。针对多元成分数据的主成分分析问题,王惠文,上官丽英等( 2015)从Aitchison (1986)提出的单形空间出发,在单形空间成分数据向量的代数体系以及数字特征的基础上,构建了单形空间多元成分数据的协方差矩阵,提出了多元成分数据的主成分分析方法(PCA for compositional data vectors),给出了多元成分数据主成分分析的建模步骤和主成分的一些性质。

作为应用案例,王惠文,上官丽英等( 2015)利用多元成分数据主成分分析方法,讨论了中国工业产品地区分布结构问题。利用2005 2011年,包括原煤、原油、发电量、粗钢以及水泥在内的工业产品,以及每一种工业产品分别在华东、东北、华中、中国西部四个地区的产量所占比重的相关数据进行主成分分析。结果显示,2005 -2011年期间,中国西部工业产品所占的比重逐年增加,而华东和东北的比重在逐年下降,华中的比重先增后减(如图5所示)。而且,从2006  2007年,2010 -2011年,工业产品在各地区的产量分布经历了两次重大改变。

3.2  多元成分数据回归分析方法

对于成分数据的回归分析,已有文献主要包含三种类型。Aitchison and BaconShone (1984)、Filzmoser et al.( 2012)研究了将普通数据作为因变量、成分数据的分量作为自变量的回归模型。Aitchison and Egozcue (2005)讨论了将成分数据整体作为因变量,普通数据作为自变量的回归模型。王惠文,上官丽英等( 2013)首先在单形空间中给出了成分数据向量的代数体系,包括内积、距离以及模长等定义;进一步,基于成分数据向量内积的定义,给出了成分数据变量的数字特征。依据单形空间成分数据向量代数体系,利用单形空间成分数据向量内积定义,提出了单形空间一元成分数据关于多元成分数据的线性回归模型求解方法(multiple linear regression modeling for compositional data);推导了单形空间线性回归模型的评价指标决定系数R2以及交叉验证相关系数Q2的公式;此外基于等距对数比变换以及矩阵内积的定义,还推导了成分数据经过等距对数比变换后的数据在欧式空间的线性回归模型及求解方法。

作为应用案例,王惠文,上官丽英等( 2013)利用多元成分数据回归分析方法,讨论了基于产业结构的地区经济之间的回归关系。利用1995年至2010年间上海按三次产业分的地区生产总值结构数据、固定资产投资结构数据以及就业结构数据进行分析,建立了以地区生产总值结构数据为因变量,以固定资产投资结构数据及就业结构数据为自变量的回归模型。上海地区生产总值三产比重实际数据与拟合数据的结果如图6所示,可以看出该回归模型的有效性和实用性。关于多元成分数据线性回归的论文发表后,成分数据等距对数比变换的创始人Egozcue专门发来邮件,评论说:“你们为成分数据领域的发展做出了重要贡献。”

3.3  投入产出表的预测建模研究

在拓展研究方面,本项目将成分数据预测模型嵌套在投入产出表的预测建模过程中。投入产出表(如图7所示)是国民经济核算和分析的一种重要工具。然而,到目前为止,投入产出表在应用上依然存在一些困难,其中一个最重要的原因就是投入产出表的时滞问题。由于投入产出表的编制是一项耗时耗力的工程,需要大量时间和人工去搜集相关数据,所以多数国家或地区每隔若干年编制一张投入产出表。投入产出表的时滞问题严重制约了投入产出表的使用,因此投入产出表的预测建模一直是经济学家和统计学家密切关注的重要领域。
   

RAS法(以其提出者Richard Stone及其合作者Abraham Aidenof的名字首字母命名,又称为biproportional scaling method,即双比例尺度法)和优化法是实现投入产出表预测的两大类主要方法(Stone (1961); Lenzen et a1.(2012))。但是,在实际应用过程中,这两类方法始终存在诸多问题:首先,需要假设直接消耗系数在预测期内不会发生较大波动,这与实际情况不符( Sonis and Hewings,1992);其次,需要知道未来分析年份各个部门的总产出以及中间总投入、中间总产出情况,这些数据的获取也较困难;此外,优化法的求解过程非常复杂,有时甚至不存在最优解。

为了解决投入产出表编制的时滞问题,简化投入产出表编制的过程,王惠文、王成等( 2015)提出了基于矩阵变换的时间序列投入产出表预测建模方法(matrix transformation technique based forecast modeling of input-output table.简称MTT).该方法可以保证在满足投入产出表内部约束条件的基础上,通过矩阵变换外推预测未来的投入产出表。为了验证所提方法的实际应用价值,以美国1967年、1972年和1977年三年的投入产出表为研究对象,利用图7投入产出表基本结构(A表)预测建模方法,基于1967年和1972年投入产出表来预测1977年的投入产出表,并与现有的两种常用的投入产出表预测方法generalized RAS(简称GRAS,GunlukSenesen and Bates (1988))和Kuroda法(Kuroda (1988))进行比较,效果如表1所示。进一步的实证研究还表明,与国际现有的常用算法相比,本项目所提出方法的预测精度更高,并且在应用时所使用的经济约束条件最少。相关论文在国际投入产出表领域的权威期刊Economic Systems Research发表。


 

4  函数数据多元分析方法研究

4.1  函数型线性回归模型的M估计

随着计算机相关技术的发展,人们搜集和存储数据的能力不断提升。函数数据是一种观测密集的高频数据,在经济活动中广泛存在。该类数据由于观测连续维数很高,并且共线性现象普遍存在,采用普通多元统计分析的方法往往不能奏效。自Ramsav and Silverman (1997)提出函数数据这一概念之后,统计学界对函数数据的研究陆续展开。

在函数数据的回归分析方面,通常研究的模型根据自变量和因变量的数据类型是数值型还是函数型可将模型区分为:函数型自变量和数值型因变量的回归模型,自变量和因变量均为函数型的回归模型以及非参数和半参数变系数模型(He et al.(2002); Preda and Saporta (2005))。目前,函数数据的回归分析研究重点主要集中于自变量为函数型、因变量为数值型的回归模型上。关于该类模型的参数估计和变量选择等问题的研究,具有诸多成果。例如,Cardot et al.(2005)基于样条方法,对函数型线性模型的参数估计进行研究,得到了一些有价值的理论结论;Hall et al.(2007)提出函数型主成分回归分析方法,并在函数型系数的收敛速度方面得到了很好的理论结果,由此成为函数数据分析中的标准方法;Kato( 2012)基于函数型主成分分析,探讨了函数型线性模型的分位数估计量的理论性质,并对主成分个数选择的准则进行了比较分析;Yuan et a1.(2012)在再生核希尔伯特空间的框架下,对函数型线性模型的参数估计和预测精度问题进行了对比研究。

黄乐乐等( 2014)重点研究了基于函数型主成分分析的函数型线性模型的M估计(M-estimator for functional linear regression model,简称MFLR)。函数型线性模型可用于研究函数型自变量和数值型因变量之间的相关关系,由于函数型自变量对应的系数是未知函数,故需要通过非参数统计的方法进行估计。在现有文献(Cardot et a1.(2005); Hall et a1.(2007); Yuan et al.(2012))中,对函数型线性回归模型的研究主要集中于最小二乘估计,而二乘估计对于异常值是极为敏感的。数据中含有异常值或者有明显的离群点(曲线)时,估计的系数具有较大的方差,波动性明显。基于此,黄乐乐等提出更加一般化的损失函数,研究函数型线性回归模型的M估计,可以根据需要选择不同的损失函数,得到函数型系数的不同估计量。在此过程中,对于无穷维函数型协变量,通过函数型主成分基函数分析对其进行投影;为了尽可能地保留原有信息,还根据方差占比信息对投影后的得分进行截断,进而转化为多元线性模型进行估计;最后再基于主成分基函数对函数型系数进行重构。数据模拟结果表明,该方法具有较好的效果(如图8和图9所示)。在一定条件下,还可以从理论上得到估计量的收敛速度,为后续研究打下基础。

4.2  基于偏最小二乘的函数型线性模型group变量选择方法

在有关函数型线性模型的变量选择方法研究中,大部分文献在对函数型自变量进行投影时所使用的基函数是样条、傅里叶基函数或者函数型主成分基函数。基于样条、傅里叶基函数的函数型回归方法(Cardot et al.,2005),在给定节点后,其基函数基本上便确定下来,而并非基于数据选择基函数。而函数型主成分回归方法(Hall et al.(2007))在对函数型自变量进行投影时,仅从自变量的信息损失角度考虑,而未考虑对因变量的解释能力。考虑到以上两类方法的不足,受多元回归分析中偏最小二乘相关方法的启发,Delaigle and Hall (2012)提出了单个函数型线性回归模型变量的偏最小二乘方法,其中在对函数型自变量进行展开时采用了函数型偏最小二乘基函数。

在许多实际数据分析问题中,人们经常讨论含有函数型自变量与数值型因变量的回归模型,并且需要在选择基函数时考虑因变量的影响。在此类问题中,采用函数型偏最小二乘基函数会更加实用,并且使用较少的基函数,就可以达到较好的预测效果。在Delaigle and Hall (2012)的工作基础上,结合罚函数类group变量选择的经典方法,王惠文,黄乐乐( 2014)进一步讨论了基于偏最小二乘的函数型线性模型group变量选择方法(group variable selection based on functional partial least squares),利用函数型偏最小二乘基函数对多元函数型自变量进行投影,之后再进行group变量选择,并在一定条件下研究了其理论性质。

该方法被用于分析环境因素对人们健康状况的影响。分析过程中主要考虑了北京市的每天最高气温、每天最大风速、每天最低相对湿度、每天最高气压以及每小时记录一次的PM 2.5浓度这5个函数型自变量(见图10)。由于函数数据类型的引入,有效解决了不同指标观测频率不同的困扰。与此同时,以对应时间段的北京市院前门急诊人数作为因变量,基于函数型偏最小二乘基函数并进行group变量选择,得到了变量选择的结果(如图11所示),PM2.5浓度对于院前门急诊人数具有显著的影响。

4.3  基于函数型主成分的函数型线性模型稳健变量选择方法

随着数据搜集技术的不断发展,搜集到的无关变量也越来越多。因此进行回归建模时,研究人员需要从大量变量中筛选出对因变量具有解释能力的自变量。在现有文献中,还较少讨论函数型线性模型的变量选择问题,而有关非正态情形下的函数型线性模型的参数估计研究也不多见。因此,系统研究函数型线性回归模型的稳健变量选择方法,具有重要的理论意义。Wang et al.(2011)曾对普通线性回归模型的稳健变量选择方法进行了研究,得到了很好的理论和实际应用结果。对于函数型线性回归模型的变量选择问题,基本上是在进行基函数展开后,在group变量选择方法( Yuan and Lin,2006)的基础上,通过添加惩罚函数进行选择。

黄乐乐等( 2016)对基于函数型主成分的函数型线性模型稳健变量选择方法(robust variable selection based on functional principal component analysis in functional regression model)进行了研究。该方法首先考虑了含有多个函数型自变量和数值型因变量的情形。由于函数型自变量天然具有非参数的特点,需要通过选择合适的基函数进行展开,再进行后续处理。考虑到函数型主成分基函数具有保留尽可能多的方差信息并具有数据的自适应性( adaptive)等特征,该方法采用了函数型主成分基函数。同时,考虑到因变量中可能存在异常值对变量筛选和参数估计的结果造成影响,又进一步研究了稳健化的变量选择方法( functional LAD-Lasso,简称FLL方法)。在变量选择过程中,对调整参数进行选择时,考虑了GACV (generalized asymptotic cross validation)、SIC (schwartz information criteria)、CPV-SIC (cumulative  proportional variance-schwartz  information  criteria)三种准则,并在不同情形下比较了三种准则的效果(如图12所示)。在理论性质方面,研究了函数型自变量个数固定和随着样本容量变化情形下FLL方法在变量选择和参数估计中的大样本性质,得到了具有一般性的理论结果。此外,在利用函数型主成分基函数对函数型自变量展开后再进行group变量选择,可以有效地避免不同变量的观测频率不一致的问题。

在应用研究方面,该方法被用于研究2011年1月至2014年6月各个月份北京市大气环境因素对于北京市21家主要大医院门诊病人数量的影响。由于PM2.5、PMIO、N02等环境变量的观测频率较高,因此适合采用函数数据的处理方法,先在基函数空间上进行投影后再进行变量选择和参数估计。FLL方法有效减小了异常值对结果的影响,变量选择的结果表明PM2.5的影响作用显著,与本部分其它研究结论保持一致。

4.4  含数值型和函数型协变量的回归模型

在已有文献中,对于多元函数型回归模型和含有多元数值型自变量回归模型的研究均有一些成果。例如Yuan et al.( 2014)在图像数据处理中研究了含多元函数型自变量的回归模型的参数估计问题。

考虑到在实际数据分析中,往往会存在函数型数据和普通数值型数据混合建模的情形,黄乐乐等( 2015)进一步研究了同时含有数值型变量和函数型协变量的回归模型( functional regression model with functional and scalar predictors)。由于在该模型中引入了非线性交互作用项,因而进一步扩大了模型的适用性。在该模型中,重点考虑了数值型因变量的预测问题。类似于半参数模型的估计方法,基于B样条基函数将函数数据进行投影,并根据某些准则对样条的节点个数进行选择,然后进行估计。之后,再根据估计得到的系数向量以及选定的基函数对函数型系数进行重构。为降低异常观测值对估计结果的影响,损失函数分别考虑了一乘、二乘、T型损失和Huber损失,在数值模拟部分对不同误差分布下不同估计的效果进行了比较。在理论性质方面,通过对节点个数关于样本容量的阶数加以限制,得到了估计量的收敛速度。对于函数型系数的估计量的渐近性质,论文也进行了相关研究。

作为应用研究,基于北京市120急救电话呼叫量数据与北京市PM2.5、SO2以及最大风速、日间最大湿度、日间最高最低气温等天气因素数据,采用函数数据分析的方法,研究了北京市120急救电话呼叫量与各环境因素以及天气因素的相关关系。研究表明,北京市120急救电话呼叫量总量与环境和气象因素的线性相关性并不明显,但不同类别的疾病急救电话呼救量与这些因素间的相关性差别较大,如心血管类等疾病的急救电话呼救量与某些环境和气象指标的一阶导数和二阶导数曲线具有较强的相关性。该研究成果可以为城市急救体系的建设和日常管理进行科学决策提供依据,并对急救车辆调度和医院人员的精细化配置具有一定的参考意义。


5.结  语

上文对北航复杂数据分析研究中心在符号数据、成分数据、函数数据的多元建模研究进展做了简要介绍。然而更加复杂的问题是,在互联网时代,在很多跨平台收集的数据分析问题中,经常存在多种异质性的属性变量。例如在电影网的数据分析过程中,会同时包括票房数据、影片特征信息、网上用户评分、网下观影团评分、院线与影评专家评价、网络点击热度、影评博文等诸多变量。如果在一张数据表中,同时出现普通数据、符号数据、成分数据或函数数据等多种类型,我们将其称为“混合数据表”。例如在电影票房预测研究中,票房和影片特征信息是普通的定量及定性数据,网上用户评分和网下观影团评分可以被整理成直方图数据(符号数据),影评博文可根据喜好程度的极性分类被统计为成分数据,而网络点击热度则可以用函数数据进行连续刻画。在这样的问题研究中,人们就需要对混合数据表进行分析,这对传统的统计建模理论提出了新的重大挑战。从现有的研究状况来看,这些不同类型数据的分析方法一直都在各自领域中独立发展,而且由于这些不同类型的数据所使用的代数体系截然不同,所以在现有的统计理论中,还不存在对它们进行混合处理的运算规则。如何在理论上解决普通实数域数据与符号数据、成分数据、函数数据的混合运算问题,将是复杂数据分析领域面临的一个巨大挑战。而对于该瓶颈问题的突破,将建立起一套高效处理海量、高维、混合数据表的理论方法体系,为大数据时代的新型数据分析理论发展解决一类关键问题,为经济管理领域中的数据分析提供更加先进有效的技术工具。

 

本文摘自郭雷、张纪峰、杨晓光编撰的《系统科学进展》。作者王惠文、关蓉、上官丽英、陈梅玲、黄乐乐,分别来自北京航空航天大学.中央财经大学.九州证券股份有限公司.中国科学院数学与系统科学研究院,百度时代网络技术(北京)有限公司。

 

王惠文,生于1957年10月31日,河北人,博士毕业于北京航空航天大学经济管理学院。目前在北京航空航天大学经济管理学院工作,教授。现任北航经济管理学院学术委员会主任,“城市运行应急保障模拟技术”北京市重点实验室主任,北航复杂数据分析研究中心主任;国家杰出青年科学基金获得者,享受国务院政府特殊津贴;并任北京市政协常委,市政协提案委员会副主任。现为国际统计学会会员、国际统计计算学会会员、中国统计教育学会常务理事、全国统计教材编审委员会委员、中国管理现代化研究会常务理事、中国大数据专家委员会委员,国家自然科学基金委员会学科评审组成员。

主要从事复杂数据统计分析理论方法与应用研究。先后主持国家863项目、国家自然科学基金重点项目、国家自然科学基金重点国际(地区)合作研究项目以及面上项目等20余项。主持过教育部博士学科点基金、北京市自然科学基金等;还主持了诸多政府和企业的应用项目研究。出版学术专著5部,发表论文150余篇。研究成果曾于1996、1999年两次获得中国航空工业总公司(部级)科技进步二等奖;2000年获北京市科技进步三等奖。曾于1996年被评为北京市优秀青年骨干教师,2000年入选中国教育部《跨世纪优秀人才培养计划>,2001年获得《国家杰出青年科学基金》。2006年被授予“为全国小康建设做出突出贡献的统一战线先进个人”称号。2002获得北京市三八红旗奖章,2004年被授予全国三八红旗手称号,2012年获得北京市师德标兵称号,2014年被评为北京市优秀德育工作者。