揭开2020美国总统选举预测的“神秘面纱”

来源:欧亚系统科学研究会时间:2020-11-03

内容提要:现有多数选举预测模型以民意调查数据和表征经济环境的数据作为预测依据,通过简单加权加和或回归模型得到预测结果。事实上,现有选举预测模型的计算方法并非遥不可及,相关完整数据的获取至关重要。本文优化了Polly Vote的预测方法,预测结果显示,拜登普选支持率处于领先,民主党将在全国选民投票中获胜。

 

选举预测通常是基于对现有信息的分析后对未来尚未发生的事件进行判断。提及总统选举,人们往往会产生对选举结果的关心,或者关注预测结果。总统选举预测是预测性研究的重大问题。作为当前全球唯一的霸主,美国总统的选举换届可能导致美国内外政策的剧变而多方面且持久地影响世界局势,因此美国总统大选的预测一直备受民众和各国政府及学者的广泛关注。2016年美国总统大选,特朗普成功当选美国总统,这一“黑天鹅事件”,与多数总统大选的预测结果大相径庭,成为当时热议话题。前段时间,特朗普感染新冠病毒,似乎又增加了2020年美国总统大选预测的不确定性。

美国总统的选举历史悠久,是由全国选民投票选出“选举人”,进而成立选举人团投票产生总统。随着时代的发展,媒体宣传在总统竞选活动中扮演着越来越重要的角色,特朗普成功当选美国总统,部分地得益于Cambridge Analytica公司的技术运作。一方面,新媒体提高了宣传的效率,但与此同时,政治家的一言一行都会被放大,任何负面事件都可能对竞选产生意想不到的结果;此外,尚存在大量的信息即便专家也无从知晓,因而产生误判的风险。所以,在大数据时代的今天,总统选举预测的复杂性并未因科技水平的大幅提升而降低。

经过近一个世纪的发展,选举预测逐渐形成了多种类型的预测方法,西方学者通过研究将选举方法分为:结构派(Structuralists),聚合派(Aggregators),综合派(Synthesizers),和专家派(Judges)[1]。我国学者王中原、唐世平等将选举预测的科学方法划分为四大类:意见聚合范式(Aggregators)、模型范式(Models)、混合范式(Synthesizers)和大数据范式(Big Data)。其中,大数据范式,认为是通过收集社交媒体上网民关于选举的语言和行为数据,并借助机器学习算法预测选举结果[2]

当前,在选举预测领域具有较强影响力的是“Polly Vote”,团队主要成员有J. Scott Armstrong、Alfred Cuzán、Randall Jones和 Andreas Graefe 。其主要依据多种类型的选举预测模型结果进行平均加权计算,在网站上实时发布该团队的选举预测趋势。Polly Vote当前参考的选举预测方法包括民意调查(Polls)、博彩市场(Betting Markets)、专家判断(Expert Judgement)、政治经济模型(Models)、公民预测(Citizen Forecasts)五类,并将其中一类的政治经济模型,根据预测模型使用的数据性质进一步细分成回顾型、展望型、混合型三类模型。当然,除了Polly Vote网站之外,Real Clear Politics、Five Thirty Eight、The Economist等网站也提供美国大选前的预测,通过不同的加权计算方式预测选举结果。有研究发现,与单一预测模型的结果相比,组合预测的方法的确可以提高预测的准确率。

随着美国总统大选日期的临近,Polly Vote 发布了2020美国总统选举预测结果:


图1:拜登VS特朗普 普选得票率(截至2020.11.01)

目前,不同预测模型关注的变量各有侧重,为使预测模型包含尽可能多的变量,Polly Vote 采用如下策略,取不同模型的预测结果的平均值,作为新的预测结果。借用大气科学的术语,这属于系综预测(ensemble forecasting)范畴。因此,以Polly Vote为代表的总统选举预测并非遥不可及。

然而,在Polly Vote的预测方法里,简单的平均并非最优,本文尝试对该方法进行优化。基本思路如下,不同模型预测的准确率不同,好的系综预测应该对不同的基础模型引入适当的权重,而不是像Polly Vote那样使用简单平均。

假设有个N基础模型,它们在过去J届美国总统选举预测的成绩已知。对每一个基础模型,我们让其权重正比于其在过去J届美国总统选举的“净胜率”。用符号表达如下,记

则预测的“净胜率”为:

其中,i表示模型序号;j表示美国总统大选的选举年份,即届。计算每个预测模型的权重Wi ,根据预测模型在历届大选中的预测表现,得到:

已知有,预测模型的权重公式为:

由于预测模型使用的数据均为选举当年收集或统计得到,故本文不考虑时间对权重的影响。最终,我们根据选取的基础模型在选举前发布的2020预测结果Pi,进行加权计算,得到本文最终的预测结果,预测公式为:

基于历史选举数据的可获得性,选取包括Lewis-Beck & Tien、Brad Lockerbie、Wlezien & Erikson、Lichtman和Ray Fair学者提出或发展的5个预测模型,对其在最近6届(1996-2016年)美国总统选举预测的成绩进行整理。汇总每个模型在预测中成功和失败的次数,计算各个模型的“净胜率”,及权重后,得出最终的选举预测结果。

根据本文对Polly vote的算法优化,我们的预测结果如下:2020年美国总统大选民主党候选人拜登的普选得票率为50.9%,共和党候选人特朗普的支持率为49.1%(数据收集截至2020.9.23)。拜登普选支持率处于领先,民主党将在全国选民投票中获胜。


参考文献:
[1] Michael S. Lewis-Beck, M. Stegmaier. US Presidential Election Forecasting[J]. Political Science and Politcs, 2014,47:284-288.
[2]王中原, 唐世平. 政治科学预测方法研究——以选举预测为例[J]. 政治学研究, 2020,2:52-64,126.

 

文:王芳蕾;校对:高剑波团队
高剑波团队核心成员:1高剑波  北京师范大学教授 欧亚系统科学研究会常务理事;2刘飞燕  博士后(已出站);3博士研究生:刘彬 胡启月 孙潇慧 王芳蕾;4硕士研究生:何兆阳 张伟 丁钰珮 贺鑫。

上一条:俄罗斯空袭叙利亚可以预测吗?
下一条: