“一带一路”大数据分析平台

GDELT数据库

来源:欧亚系统科学研究会时间:2020-05-25

一、平台简介

 

二、分块展示

1.GDELT与LexisNexis News海量媒体数据库比较

GDELT(Global Database of Events,Language,and Tone,全球事件、语言和语调数据库)是一个 TB 量级的基于新闻媒体报道的关于全世界所有重要人类社会活动事件集的数据库。它收集的新闻事件覆盖了全世界绝大部分的英语和非英语(100 多种语言)国家和地方新闻媒体的报道,新闻覆盖率高达 98.4%,而且覆盖的地理范围和语言种类仍在不断增加。GDELT 包含了从 1979 年 1 月 1 日至今来自世界的超过5亿条新闻事件数据;并且,数据库现在已更新到 2.0 版,实现每 15分钟更新一次。该数据库记录的每个事件均涉及两个 Actor,如美国和中国。具体地,每个 Actor 又包含了多种角色代码。更重要的是,GDELT 包含了其记录事件的很多其他属性,如把新闻事件的类型分为 20 个大类和 300 多个小类,同时,给出了用以刻画两个Actor 之间合作或冲突程度的戈登斯坦因子(Goldstein Scale),其分值范围为−10-10 分,−10 分和 10 分分别代表最强烈的冲突和最积极的合作;也给出了用以表示新闻媒体报道感情色彩的 Avg Tone;以及事件发生的位置、时间信息;等等。GDELT 数据库的以上特点为定量研究“一带一路”沿线国提供了极大的便利。

www.lexisnexis.com是一个通过海量媒体提供法律与新闻服务的咨询公司,其新闻来自世界各地9000多个资料来源,涵盖全球知名的新闻报纸、时事通讯、杂志、贸易期刊、电信和广播媒体的报道,如《华尔街日报》、《纽约时报》、《国际先锋论坛报》、《日经新闻周刊》、《南华早报》、《海峡时报》、CNN、BBC等,也包含大量非英语的新闻来源,如德文、法文、意大利文、西班牙文、丹麦语等,因而宣城世界第一。基本付费用户可以根据关键词、新闻来源与时间查找新闻原文,但一次查询数量不能超过3000条。

对比1979-2015年GDELT和LexisNexis News数据库中分别与黄岩岛和中国南海相关的新闻量,发现GDELT的数据量远超过LexisNexis News,结果见下图。

2.GDP与GDELT新闻报道量的关系

以“一带一路”沿线国中69个国家为例,绘制这些国家的GDP与GDELT新闻报道量(对数坐标)的散点图,见下图。从图中可以看出,二者呈较强的相关性,因此深入研究GDELT的新闻报道可以推断各国政治经济的复杂性。

3.中国与“一带一路”沿线国新闻报道量的空间分布

基于GIS技术可实时动态地展示“一带一路”沿线国新闻报道量的变化,以2015年为例,见下图。

4.中国与“一带一路”沿线国合作与冲突程度的量化

GDELT数据库中包含20个角色代码,这些角色代码在反映的是新闻时间的主题。因此,基于GDELT数据库中的Goldstein Scale指标能够定量刻画中国与“一带一路”沿线各国在不同主题的新闻时间中的合作与冲突程度,有助于追踪中国与“一带一路”沿线各国发生的重大事件及各国的反应程度。具体以中国与“一带一路”沿线国整体在政府、经济、军事、精英、难民和平民层面的合作与冲突程度为例。

 

中国与“一带一路”沿线国在政府层面的合作与冲突程度



中国与“一带一路”沿线国在经济层面的合作与冲突程度



中国与“一带一路”沿线国在军事层面的合作与冲突程度



中国与“一带一路”沿线国在精英层面的合作与冲突程度



中国与“一带一路”沿线国在难民层面的合作与冲突程度



中国与“一带一路”沿线国在平民层面的合作与冲突程度 

5. “一带一路”沿线国冲突型事件及其动态演化

根据GDELT中的Goldstein Scale指标计算“一带一路”沿线各国日频、月度、年度的冲突型事件的程度,有助于从空间上观察各国冲突型事件的动态演化。以中国和“一带一路”沿线各国2004-2014年年度数据为例,见下图。

6. “一带一路”沿线国合作型事件及其动态演化

根据GDELT中的Goldstein Scale指标计算“一带一路”沿线各国日频、月度、年度的合作型事件的程度,有助于从空间上观察各国合作型事件的动态演化。以中国和“一带一路”沿线各国2004-2014年年度数据为例,见下图

7.俄罗斯介入叙利亚战争

面对以美国为首的西方严厉的经济制裁,俄罗斯联邦委员会在 2015年9月30日批准了普京总统关于在境外使用俄罗斯联邦武装力量的请求。几小时后,俄罗斯飞机就对叙利亚霍姆斯省的恐怖分子目标进行了第一波打击。飞机轰炸并摧毁了武器弹药库、油料库、装甲技术兵器、指挥所、“伊斯兰国”非法武装的运输工具,及位于山区的恐怖武装的指挥所和指挥部。俄罗斯的强力介入,打乱了奥巴马政府在中东的布局。危机之下,奥巴马做出了两项决定:一是命令五角大楼为反对派提供更多杀伤威力大的地面武器。二是加大空袭力度,尤其是加快利用土耳其空军基地的步伐。可惜,虽然美国不愿叙利亚问题的主导权落到俄罗斯中,但以牙还牙带来的是越来越紧张的局势。以牙还牙经常会引发双输局面。避免双输局面出现的一个有效方法是一开始就洞悉对手的意图,然后采取有效的措施不让尴尬的情形出现,正所谓“兵势一交,岂能骤解”。就美俄关系来说,很要紧的是美国能否预见俄罗斯对叙利亚进行空袭。基于从 GDELT 中提取出的每一天的国家关系网络或矩阵的数据,以及应用SVD方法计算两国在2015年08月25日至2015年10月05日俄罗斯介入叙利亚前(上图)后(下图)这段时间内俄罗斯-叙利亚之间冲突的活跃程度和美国-叙利亚之间冲突的活跃程度,对比二者可以发现,从9月6日开始,俄罗斯-叙利亚之间的活跃程度开始超过美国-叙利亚之间的活跃程度,暗示俄罗斯介入叙利亚的时间比实际时间(9月30日俄罗斯空袭叙利亚)要早20多天,从而证明俄罗斯空袭叙利亚是可以预测的(详细阐述见高剑波著《“一带一路”大数据定量分析—任务、挑战与解决方案》一书)。

 8.基于随机分形理论的全球恐怖活动指数

根据全球恐怖主义数据库GTD(Global Terrorism Database)所提供的全球210个国家和地区1979-2015年发生的超过150,000起恐怖袭击事件的数据,利用随机分形理论分析各国的恐怖主义时间并计算出各国的Hurst指数,绘制2010-2014年全球恐怖活动指数的空间分布图,见下图。

9. 全球国家和地区的盟约网络图

基于复杂网络分析方法探究1939-2003全球范围内的国家和地区间签订盟约的演变,以1958和2003年为例,见下图。