数据智能:趋势与挑战

来源:数据智能研究中心时间:2020-10-22

随着大数据和人工智能的兴起,数据智能(data intelligence)逐渐成为学术界和产业界共同关注的焦点,数据智能具有显著的大数据驱动和应用场景牵引两大特征,其融合场景内外的多源异质大数据,利用大规模数据挖掘、机器学习和深度学习等预测性分析方法和技术,提取数据中蕴含的有价值的模式,并用于提升复杂实践活动中的管理与决策水平。

(一)数据智能在数据、算法、场景三维迭代中源起与演进

近年来“大数据”和“人工智能”先后成为学术界和产业界讨论最多的话题之一。对于大数据一般有两个视角。一是数据视角,认为大数据是由列表数据、时间序列、空间序列、关联网络、文本、图像、多媒体等构成的多源异构信,带来体量大、模态多、速度快、杂质多等4V(Volume,Variety,Velocity,Veracity)技术挑战,因此大数据处理技术,特别是NoSQL的存取技术与多模态计算技术,得到了广泛的研究和产品化尝试,而大数据分析方法则在很长时期内仍停留在数据挖掘以及分析结果可视化的层面。二是决策视角,即所谓的大数据思维,如大数据应作为企业战略资产、大数据改变信息不对称进而驱动市场均衡发生变化、大数据催生新的产业并推动价值创造等。特别地,清华大学陈国青等针对大数据环境下的管理与决策问题,指出了大数据具有粒度缩放、跨界关联、全局视图的决策特征,并据此提出了考虑假设转变、跨域转变、流程转变的决策新范式,以及包括范式(Paradigm)、 分析(Analytics)、治理(Governance)和使能(Enabling)等四大维度的大数据研究PAGE框架,极大地丰富了大数据的决策理论。

以深度学习为标志的人工智能的兴起,标志着大数据研究进入了以大数据分析方法为中心的时代。各种深度神经网络结构被提出,以解决不同领域的大数据的建模问题,如卷积神经网络之于图像、循环神经网络之于时间序列、图神经网络之于异质网络、注意力网络之于文本等,不一而足。这些方法得益于近年来非结构化大数据如文本、图像、多媒体等的广泛涌现,可以在大规模训练中不断调优和进化,甚至开始以提供预训练模型的方式被用于构建和使用领域通用知识,为推进科学家长期向往的“直觉AI”提供了思路。然而,随着人工智能的不断升温,学术界和产业界又开始出现了“AI可能县花一现”的担忧。从整个人工智能领域来说,确实经历过挫折,如上个世纪中期开始的知识推理和知识系统研究,成果未能尽如人意。但如果考虑到这次的人工智能热潮不仅有大数据作为支撑,而且有丰富的应用场景作为牵引,这种担忧似乎来得有点过早。事实上,现在大众眼中的AI是AI应用一—如聊天机器人、脸部识别设备、无人驾驶汽车等——而非AI技术本身,这充分表明这次的人工智能热潮是冲着落地应用而来,其向各应用领域的渗透远未结束。

综上,大数据分析与应用中已经深深嵌入了现代人工智能技术,并成为推动其发展的核心动力,“数据智能”(Data Intelligence)的概念呼之欲出。从管理的视角出发,可将数据智能定义为:通过大规模数据挖掘、机器学习和深度学习等预测性分析技术,对现实应用场景的内外部多源异质大数据进行处理和分析,从中提取有价值的信息或知识,并用于提升复杂实践活动中的管理与决策水平。根据上述定义,数据智能首先是面向大数据的预测性数据分析技术,其涵盖了上个世纪八十年代以来基于人工特征的机器学习、九十年代以来源自数据库的数据挖掘,以及本世纪初以来的深度学习,当然也包括了传统的统计分析及可视化技术—只是需要面向大数据进行调整和创新一以及大数据获取与处理方法和技术。其次,数据智能还是面向应用场景的预测性数据分析技术,目的是为复杂实践活动中的管理与决策提供技术支持,因此一些基础性的数据分析技术将在应用场景的需求牵引下进行创新和整合,形成综合性的数据分析技术,如现在已在电商平台广泛使用的推荐系统就是一类典型的综合性技术。从上述两点来看,大数据驱动和应用场景牵引,是数据智能的关键特征,也是数据智能异于人工智能的关键点,因为后者不一定数据驱动、也更强调研究通用的方法与技术。而源自统计学领域的数据科学概念,则在方法上范围更宽(如涵盖计量等因果分析方法)、距离具体应用场景也通常更远。

与数据智能较为相关的一个概念,是上个世纪九十年代提出的商务智能,二者相似之处在于数据驱动和场景牵引,但具体含义已有较大差别。首先从数据看,商务智能的输入主要是大规模结构化数据,而数据智能则作用于真正意义上的多源异质大数据,即以文本、网络、时间序列、空间序列等应用领域涌现的大数据为主要分析对象。其次从场景看,商务智能主要应用于商业领域,而数据智能的应用领域已远远超出商业领域,如智慧城市、智慧金融、智慧制造、智慧医疗等,也是数据智能的典型应用场景。最后从方法看,商务智能主要应用数据立方体、数据仓库技术和数据挖掘技术,基本不涉及大数据处理技术,也不包括前沿的机器学习和深度学习方法,而后者正是数据智能实现大数据分析的核心技术。尽管如此,商务智能于提出伊始就把数据、算法、场景融合一体,为在大数据和人工智能时代提出数据智能概念,奠定了很好的基础。具体而言,大数据可以推动算法、特别是深度学习算法研究,使算法得以在实际场景中应用,而应用将产生更多的大数据,它们将被用以持续提升算法。如此以来,数据、算法、场景三者将循环迭代、螺旋上升,成为推动数据智能长期发展的系统动力。

(二)数据智能漫长的研究链上充满了学科交叉的创新机会

数据智能是在大数据驱动与应用场景牵引下,融合来自多学科的数据获取、处理、分析和可视化技术,为现实世界的复杂管理决策实践提供可行动准则(actionable rules)的一个新兴学科领域。尽管有来自统计学、机器学习、数据库、数据挖掘等领域的许多专家学者,一直致力于沿着各自领域的问题设定发展更为有效的预测性数据分析技术和方法,但面对众多应用领域涌现的大数据分析需求,大家始终缺乏通用且有效的解决方案,这导致产生了大量有意义但碎片化的应用工作。这一现象直到深度学习的出现才逐渐得到了改变——深度学习及其衍生的表征学习等方法,为连接大数据“原料”与智能应用“产出”提供了至关重要的一块拼图。自此数据、算法、场景三个维度得以真正打通,形成有效的生长循环,驱动商务智能进化为数据智能,并且在三维螺旋中不断迭代成长。从这个意义上说,数据智能虽然是方法和技术的集合,但其应用导向特征才是其区别于数据科学、人工智能等热点概念的关键特征。它必将推动众多领域从不同层次的数字化逐渐走向智能化——这一过程从目前来看仍将持续很长的时间——并在智能化进程中发展出新的技术与方法。这意味着数据智能绝不会昙花一现。

深度学习毫无疑问将在很长一段时间内占据数据分析技术的主导地位。无论是端到端学习还是表征学习,都非常容易适应多变的实践应用并且能够提供很好的预测力。如何进一步设计更适于某些数据特点的深层网络结构以提升其预测精度,将会是一个重要的研究方向,但目前来看大型或超大型IT公司凭借丰富的训练资源在该工作中占据了优势地位。一个在某种程度上有些“相反”的研究方向也将吸引不少学者的注意力,即追求深层网络的压缩效率,从而将高质量的深度学习模型更多地应用到嵌入式设备中——如手机和传感器,这对于进一步推动物联网智能应用尤为重要。此外,近年来的研究表明,科学家们还将在高精度预测的基础上,追求深层网络的知识化、鲁棒性和可解释性。“知识化”源于对近年来出现的图像、文本等的预训练模型的认识,深层网络作为工具把某个领域的海量原始数据转化为了该领域的共性知识以供使用,这或许将为人工智能诞生之初的知识推理理想提供落地思路,尽管知识化的效率和公信力仍然有较大提升空间。“鲁棒性”担忧源于近年来发现的深度学习在对付对抗样本攻击时经常显示出的脆弱性,尽管有不少防御策略和算法被提出以对抗各类已知攻击,但脆弱性的根源是否在于深度学习的梯度计算,仍未有确切的理论分析结论,如何有效对抗未知类型攻击及实现对对抗攻击算法的有效保护,仍然是值得深入研究的问题。“可解释性”是深度学习在金融、医疗、军事等敏感领域应用的共性需求,但无论局部解释还是全局解释效果仍不尽如人意,特别从统计推断角度来看,构造有效的检验统计量仍然没有太大进展,尽管梯度似乎在其中扮演了一个重要角色。最后,将深度学习与现有浅层模型结合,提升浅层模型在其传统应用领域的预测力,也是一个重要的研究方向,这里一个非常核心的问题是如何实现传统模型的“梯度化”近似求解。对上述诸多问题的解答,将推动深度学习的研究和应用进入下一个阶段。

数据智能的核心特征是应用导向,但采用“智能+”还是“+智能”的策略却应该因地制宜。对于互联网应用和工业工程领域,“智能+”策略往往是合理的,因为这些领域对用户决策的依赖程度并不高,数据智能可以成为价值创造的主要动力并推动应用创新和发展。但在一些对用户决策高度敏感的应用领域,如金融、医疗、军事等,“+智能”是一个更为合理的策略,有效、可信、可控的智能技术才会被引入到特定情境中,辅助用户做出重要的决策选择,如投资决策、诊疗决策与军事行动决策等。因此,数据智能如何与这些领域的领域知识更好地融合,如何提高其在这些领域应用时的鲁棒性和可解释性,是否应该从业务绩效而非预测精度的角度来评价应用效果,能否更好地借助业务人员经验以实现人机混合智能等,都是值得深入研究的重要问题。从业界实践来看,金融、医疗场景已经成为数据智能应用的热点领域,金融科技(FinTech)概念和精准医疗(Precision Medicine)概念深入人心并开始产生市场价值。但从文献情况来看,数据智能在这两个领域的应用研究仍远未成熟,大部分成果发表来自技术领域,这意味着对两个领域的核心问题——如金融的系统性风险识别和传染问题——涉入不深,也为未来研究提供了充足的空间。此外,一些令人兴奋的趋势也值得高度关注。例如,5G的兴起和移动终端的广泛渗透,将为数据智能带来最为广阔的移动物联网应用场景;这一场景将催生新的应用,也能与传统的金融、医疗、商务等场景相互融合,进而带动数据智能实现技术创新。又如,在经历了图像、语音领域的突破性发展之后,能与人类能力相媲美的自然语言理解与生成技术,将在各类应用场景的共同需求的牵引下,成为数据智能亟待突破的关键核心挑战。

作为数据智能的关键“燃料”,大数据的价值正不断得到认识和发掘。这一部分得益于数据处理技术的不断成熟,数据处理平台“云”化和“中台”(middle-end)化趋势明显,事实上的数据标准与可视化标准在越来越多的领域开始出现并得到认可。在巨大价值的驱动下,数据资产化步伐正在加快,企业开始围绕其拥有的大数据来打造新的业务——这类业务甚至可以简单成仅提供数据查询却依然能赚得盆满钵满,而共享数据的理想仅能靠政府来艰难推进。然而企业私有化的、有价值的数据,往往是所谓的“用户生成数据”(User Generated Content),企业除了需要拿到用户的使用授权(也许在不完全知情状态下),如何保障数据安全也是其面临的巨大挑战。近年来,许多研究人员对数据安全问题展开了深入研究。这些研究通常将数据安全置于某类数据应用情境之下来考虑——如数据建模、数据发布、数据共享等,联邦学习、区块链等前沿技术的潜力也得到了不少的讨论,但距离真正解决问题还有相当的距离。数据安全正日益成为阻碍大数据价值发现的关键因素,值得研究者深入研究和探讨。

数据智能方兴未艾,也给管理领域带来了丰富的研究机会。从技术层面来看,信息系统方向学者在应用场景理解上与纯技术方向学者相比应具有优势,但应注意除了“用”技术也要“造”技术,才能真正站在数据智能的风口浪尖上。事实上,深度学习的出现不是提高了而是降低了造技术的门槛,它使得面向应用需求快速研发“不错的”技术方案成为可能。在这个基础上融合领域知识和管理理念,容易得到面向决策的可行动准则。从管理层面来看,数据智能整个研究链条非常长,非技术方向的管理学者也能找到丰富的参与点,特别是一些非常热门的学科交叉点,如数据治理机制设计、基于预测的随机优化、基于预测的因果分析、可解释预测的统计理论等,这些科学问题近两年在管理学顶刊催生了大量的专刊征文。未来如果有更多数据智能研究相关的论文——不仅仅是实证范式还有预测范式——发表在管理学顶刊上,我们不应感到惊奇。

 

本文内容转自《系统工程理论与实践》第40卷第8期论文《数据智能:趋势与挑战》,首发于数据智能研究中心,论文全文请点击文末链接下载阅读。
作者吴俊杰是北京航空航天大学研究员、博士生导师,经济管理学院副院长,主要研究方向为数据挖掘、大数据计算、人工智能等数据科学方法。

 数据智能_趋势与挑战(吴俊杰,刘冠男).pdf