“一带一路”倡议自提出以来得到了国际社会的广泛关注与支持。截止到2021年1月,中国与171个国家和国际组织签署了205份共建“一带一路”合作文件。中国与参与“一带一路”建设的国家和地区在经贸、基建投资等领域开展了深度和广泛地合作,极大地推动了“一带一路”建设。为了更有效地推进共建“一带一路”高质量发展,需从政治、经济、社会、文化等诸多方面对“一带一路”参与国展开系统的定量研究。特别是,AI等信息技术的发展为“一带一路”参与国相关海量信息的收集与处理提供了可能。研究团队认为“一带一路”大数据应该包括基础设施建设、投资、贸易、政治冲突、政治和经济风险评估、国际关系、民意、旅游、宗教、体育、医疗卫生、教育、环境、法律等,表1列出了相关部分数据源及简介。
表1:相关部分数据源及简介
注:此表在《“一带一路”大数据定量分析》P7-8表1.1的基础上进行了更新。
接下来对GDELT海量媒体数据库进行简单地介绍。全球事件、语言和语调数据库GDELT(Global Database of Events, Language, and Tone)是一个TB量级,是基于新闻媒体报导的关于全世界所有重要人类社会活动事件集的数据库。它收集的新闻事件覆盖了全世界绝大部分的英语和非英语(100多种语言)国家和地方新闻媒体的报道,新闻覆盖率高达98.4%,而且覆盖的地理范围和语言种类仍在不断增加。GDELT包含了从1979年1月1日至今,来自世界上超6.8亿条的新闻事件数据;并且,数据库现在已更新到2.0版,实现每15分钟更新一次。该数据库记录的每个事件均涉及两个Actor,如美国和中国;且Actor又包含了多种角色代码,如表2所示。
表2: GDELT海量媒体数据库的角色代码表
更重要的是,GDELT包含了其记录事件的很多其它属性,比如把新闻事件的类型分为20个大类和290多个小类(见表3),同时,给出了用以刻画两个Actor之间合作或冲突程度的Goldstein Scale,其分值范围为-10到10分,-10分和10分分别代表最强烈的冲突和最积极的合作;也给出了用以表示新闻媒体报道感情色彩的Avg Tone;及事件发生的位置、时间信息,等等。GDELT数据库的以上特点为定量研究“一带一路”沿线国的关系提供了极大的便利。自GDELT投入使用以来,国内外学者利用该数据库在地缘关系量化、国际关系量化、舆情分析、国家活跃度评估、国内冲突、阿富汗动乱等领域开展了广泛的研究。
表3: GDELT数据库20大类事件代码及名称
基于GDELT数据库和复杂性科学方法,研究团队已经构造了双边关系指数(Bilateral Relationship Index, BLR)、国际形象指数(International Image Index, IIG)、国家实力指数(National Pow Index, NPI),刻画了全球各国政治不稳定性及内政演化,并发展了全球热点事件追踪器。这些研究可用来评估与监测“一带一路”国家(地区)的地缘风险,并推动“一带一路”的高质量发展。
关于BLR、IIG、NPI指标的介绍请见以下链接:
BLR: https://www.csbd.world/news/?Bilateral_relation_index.html
IIG: https://www.csbd.world/news/?IIG_index.html
NPI: https://www.csbd.world/news/?NPI_index.html