泊松分布的最大似然估计


编译:“雷克世界”

导语:广大球迷们翘首以盼的2018年俄罗斯世界杯即将拉开序幕。在每一届的世界杯比赛中,除了球员们精湛的球技吸引眼球外,对于夺冠球队的预测也是人们津津乐道的话题。最近,多位学者利用数学模型对这届世界杯进行了预测,其中包括多特蒙德工业大学的Andreas Groll教授、根特大学的Christophe Ley教授和Hans Van Eetvelde教授以及慕尼黑理工大学Gunther Schauberger教授。他们比较了多种足球比赛得分的建模方法,并采用了一些先进的统计技术进行预测。

在这项研究中,我们对比了泊松回归模型、随机森林和排名方法三种建模方法。前两种方法主要基于团队的协变量信息,而后一种方法则着重估计足够的能力参数,以反映当前团队的最佳实力。我们发现,将随机森林与来自排名方法的团队能力参数相结合,作为额外的协变量,可以大大提高预测的准确性。最终,我们选择了这种组合方法作为我们的最终模型。

图1:样本表格展示了所涉及团队的四组比赛和部分协变量的结果

与2014年世界杯相似,即将在俄罗斯举办的本届世界杯同样吸引了众多建模师的关注。他们试图通过不同的方法预测出锦标赛的冠军。其中一种方法在过去欧洲锦标赛和国际足联世界杯等多项赛事中取得了合理的结果,这种方法主要基于赌注登记经纪人的几率中所包含的预期信息。他们通过汇总多家在线赌注登记经纪人的获胜几率,并将其转化为获胜概率,从而计算出特定团队的能。

另一种被证明有效的模型是随机森林模型。这种模型在机器学习和数据挖掘社区中广泛应用,它通过在训练数据上构建大量决策树来进行操作。与传统的决策树相比,随机森林减少了过度拟合的趋势和方差,因此成为了一种强大的预测工具。在Schauberger和Groll的初步研究中,随机森林的预测性能已经与传统计数数据回归方法如泊松模型进行了比较。事实证明,随机森林提供了非常令人满意的结果,并且通常要优于回归方法。

图2:条形图显示了应用于FIFA世界杯2002—2014年数据中随机森林模型变量重要性。论文第2部分描述的变量被用作预测变量。

还有一组专家根据不同的因素对最受欢迎的球队进行了排序。他们使用了一个基于四个因素的统计模型来确定球队在比赛期间的表现:Elo评分、球队在世界杯之前资格赛中的表现、球队在前几届世界杯锦标赛中的成绩以及家庭优势等。该模型通过使用前五场比赛的结果进行校准,并进行大量蒙特卡罗模拟以确定所有球队的获胜概率。

图3:根据FIFA世界杯的模拟运行及ODDSET赔率,为所有32支球队进入2018年世界杯足球赛不同阶段的预测概率(以百分比表示)。

与此泊松回归模型也在预测中发挥着重要作用。这种模型直接对两个竞争团队在单场比赛中的进球得分进行建模。研究者们对泊松分布的依赖性参数进行了深入研究,并提出了不同的建模策略,以将竞争团队的能力或协变量包含在内。尽管最初假设得分是条件性独立的,但研究者们发现得分之间实际上存在边际相关性。为了解决这个问题,一些研究者提出了双变量泊松分布等更复杂的模型来解释得分之间的相关性。

与基于协变量的泊松回归模型密切相关的是基于泊松的足球队伍排名方法。这种方法通过最大似然法估计能力参数,从而反映当前团队的最佳实力。Ley等人研究发现,这种模型在国内联赛和队比赛中的表现都优于其他排名方法。