柯惠新:关于疫情发展态势统计

来源:欧亚系统科学研究会时间:2020-03-18

编者按:由全国工业统计学教学研究会、中国现场统计研究会、中国商业统计学会、北京应用统计学会、北京大数据协会主办,首都经济贸易大学统计学院承办的“科学抗疫、统计担当——全国统计科学线上高端论坛”于2020年3月15日成功召开。我会高级顾问、中国传媒大学调查统计研究所柯惠新教授在全国统计科学线上高端论坛上做报告,题目是《关于疫情发展态势统计》,讲述了即将75岁的她和即将76岁的肖春涛担任“云志愿者”整理疫情数据和分享相关统计图表的来龙去脉,期间的一些感悟和体会,以及提出供有关部门参考的一些建议,体现了老统计学家在面对疫情时的责任担当。本公众号特编发此文,以飨读者。


一、研究缘起

首先简要报告近两个月以来所做的事情。

1月中旬我开始密切关注疫情,1月28日转发国外大数据预测模型引起争议和质疑,1月30日肖春涛同学帮助整理卫健委数据,与国外大数据预测模型作比较;之后又整理并转发国家卫健委每日发布的疫情数据。期间遇到问题不少,网友不断的质疑,官方数据统计口径多次变更引起的疑问,当志愿者要克服的困难等等,我们几度想放弃,但还是选择了坚持。经过近两个月的努力,我们的工作已经基本得到默认或支持。简单总结一下:1月30日-2月16日,用卫健委数据与国外模型预测数据作比较。2月2日起,增加国家卫健委数据的详细统计。2月28日起,增加湖北卫健委数据的详细统计。3月9日起,增加全球中国以外疫情的汇总。3月12日起,增加9个国家疫情数据的统计。3月16日起,扩大到对确证病例超千国家的疫情发展态势统计。

下面再具体展开做进一步的说明。

1月28日,我看到一个微信群里发的国外大数据预测模型,社科院的调查统计专家附了转发点评:大数据预测的精准性。我感觉很不错,就转发到几个微信群。

但是万万没有想到,马上就受到了不少质疑,例如:“这个国外大数据模型何时刊登在什么杂志?”“感觉不靠谱,尤其不宜扩散!”“只会增加恐惧感!”“除非事先发表文章,预测结果与实际数据吻合!”“赶快撤掉!”… …。

对此我耐心地进行了回应:第一,现在的模型可能只是自然情况下的预测?第二,可能没考虑一些因素如人为的干预等?这个模型可能少了一个重要的变量——我们的政治决策。而这种政治决策将是什么样的以及在何种情况下出台,需要懂中国政治的专业医务研究者研究。第三,还有人体产生抗体、病毒毒性减弱、尤其是可能的抗病毒药物的出现,这些参数会大大影响模型的结构。第四,我想也许该模型研究者的主要目的之一是警示疫情的危险性?主要是根据R0(传染再生系数)来计算的?(注:R0:没有干预的基本再生数;Rt:加了干预的有效再生数)可能预测不是最重要的?因为预测要考虑很多因素。所以我认为,虽然这些天的数据确实很吻合,但以后就不一定吻合了。

1月30日,肖春涛同学帮助整理了1月22日以来国家卫健委发布的数字与该模型的对比列表(1月30日数字对比表详见下图),发现国家公布的实际病例和死亡数字比大数据模型预测的数字有多无少,说明形势严峻,不容乐观!


再继续看下图(2月5日的数字对比表),发现有了质的变化,卫健委公布数据比国外大数据模型预测数据呈现出减少的趋势。这说明开始看到了干预的效果。两者相差越大,则说明干预的效果越明显。

从2月2日起,又增加了对国家卫健委数据的详细整理,下图为2月5日的一览表。


2月8日,香港城市大学教授祝建华在朋友圈发出一个求证信息:
为什么2月7日的全国累计病例不等于前一日的累计加上新增?
31,161+3,399=31,774?(应该是:31161+3399=34560)。

我和一些做统计研究的老师(如冯士雍老师)也有类似的疑问。通过群中老师的猜测和马广斌博士连夜仔细查对研究,才发现原来是卫健委从2月6日起增加了一个新指标:“现有确诊病例”,但是没有明确说明,所以导致大家在计算“累计报告确诊病例”时,用错数了。

*注意:累计报告确诊病例=现有确诊病例+累计治愈出院+累计死亡
*注意:当日新增确诊病例=当日实际新增确诊病例–当日排除疑似或解除观察的历史病例数

此外,官方数据经常会看不懂,例如2月11日的日报:全国新增871小于湖北新增897,应该是明显的粗心错误。

又例如,2月12日新增确诊病例突然暴涨,微信群里大家猜测可能是多重原因叠加:(1)医护人员翻倍了?(2)检验盒普及了?(3)CT片可以确诊了?(4)逐户排查连窝端了?(5)标准变化了(含临床诊断病例)?(6)湖北换领导了?
我和肖同学讨论后,感到应该是标准变化(含临床诊断病例)导致的暴涨,注意下表中的红色部分。

此外,与肖同学商量后决定,从2月17日开始,不再做与国外大数据模型的比较,因为干预效果已经很清楚了!以后只发一张全国疫情发展态势图。
下图是2月16日转发的最后一张卫健委公布数据与国外大数据预测数据的对比图。

从2月28日起,增加了对湖北卫健委数据的详细整理,此后每天有全国和湖北两张疫情发展态势统计一览表(注:因为格式和全国的一览表相同,此处湖北表就省略了)。

三月份以来,国外疫情引起了大家的关注,所以我们从3月9日起,增加了对人民日报新媒体3月3日起每天中午12时发布的《新冠肺炎全球疫情形势》图(除中国外)的汇总。
下图为我们在3月12日汇总的3月3-12日新冠肺炎全球中国以外疫情形势图。

从3月12日起,我们还增加了9国(此后是全球病例数超千的国家)疫情发展态势统计,以下是3月13日的一览表。

二、几点感悟和体会

通过近两个月充当“云志愿者”的经历,我有以下的四点感悟和体会。

第一,虽是简单的数据整理,但要坚持下来不容易。

首先要细心、耐心、不怕麻烦、反复对照日报、反复检查,尽量不出错;其次是对网上的意见或质疑,合理的虚心接受和感谢,不合理的也要耐心解释不动气;特别感谢每日坚持整理数据的肖春涛同学(清华大学建筑学专业63级、梁思成的弟子),体谅他的难处(眼睛老花,常常看不清,我就负责查错修改),要真诚合作,相互打气;我们定位自己是疫情期间的老年“云志愿者”,发自内心地做点微薄的贡献,感谢众多的支持。

第二,统计科普工作很重要,建议加强统计科普/通俗读物的撰写和出版。

从多次被质疑甚至被抗议,我体会到统计科普的重要,即便对高文化程度的人群也同样如此;我虽曾被邀针对国外大数据模型的质疑写篇小文章,但感到科普文章难写,没敢答应;对于预测模型、预警模型、R0、阳性、假阳性等等基本概念,如何让非统计专业人士也能理解;我的期望是:国民和官员,都能慢慢习惯用数据说话。

第三,官方统计指标的制定和数据的发布影响巨大,建议统计研究学会、协会的专家能参与意见。

卫健委从2月6日起增加了一个新指标:“现有确诊病例”,没做必要的说明,导致疑问;卫健委2月11日的日报:全国新增871小于湖北新增897,是明显的粗心错误;卫健委2月12日的日报:新增确诊病例突然暴涨,导致大量猜疑,估计是标准变化了(含临床诊断病例)?卫健委2月19日对“确诊病例”统计口径变更,导致湖北新增确诊核减为349;21日应勇书记明确要求:已确诊的病例不允许核减,已核减的必须全部加回(后订正为775)。

第四,如何增强统计学术研究和应用研究的权威性?建议相关统计协会/学会能发挥更强的作用。

对于这个问题,主办这次《科学抗疫、统计担当—全国统计科学线上高端论坛》的五个研究会/学会/协会和承办大会的首经贸大学,都有很多重量级的专家,期待专家们能发挥更大更重要的作用。

三、不是多余的话

 第一,关于数据的真实性。

一些网民怀疑官方数据有隐瞒或造假,原因之一是由于统计口径不稳定、指标变更没有清晰的说明…等等不够专业的问题造成的,如何提高官方发布的权威性,至关重要。另有一些网民是以立场来做判断,有正能量的数据才正确,更感到科普有难度。想起十六年前我的自选集标题是《让数据说话》,真想改为《让真实数据说话》。

第二,关于网上的质疑/抗议,信任/鼓励/支持/帮助。

虽然被质疑/抗议时有些郁闷,但细想后觉得应该感谢。感谢他们能关注,这很重要;如果大家都毫无感觉,情况就会更糟。还感谢他们引起了我的思考,并进一步去寻求来源、向相关专家请教,从而更新/充实了自我。例如,对可能来自《帝国理工》“大数据预测模型”的探讨,多次去查询,虽然没能查到该模型,但也学到了一些知识;又例如,对来自北京大学的《可视化与可视化分析实验室》“新冠肺炎疫情-世界各国首例传播来源”美图的探讨,了解到该实验室受质疑后已将该图撤下,据说要做些修改,我很期待。更要感谢他们给了我力量坚持下去(激将法),让我敢于多管闲事。很高兴现在质疑已逐步减少甚至消失,当初的质疑/抗议者可能看法转变了?

最后,我更要感谢众多一直信任、鼓励、支持和帮助我的新老朋友、同学、CUC老师、学生;再次衷心地感谢幕后大力支持、劳苦功高的肖春涛同学。