Related Articles
Related Jobs
逻辑回归(又叫Logit模型)是预测0 / 1事件结果(赢或输)建模的基本工具。在这篇文章中,我将进一步解释如何将条件逻辑回归模型应用于多种有2个以上结果的比赛中(如赛马)。
我首先会快速回顾一下线性回归,然后过渡到逻辑回归,最后探讨条件逻辑回归。本文所有的例子将来自一个虚拟的赛马比赛。
概述
所有模型都从一些对世界如何运作的假设和信念开始。这些假设是很重要的,但我们现在先跳过它们讲些别的。我们最初想试图基于数据来预测某事物。我们试图预测的事物一般被称为“因变量”,我们使用的数据被称为“自变量”或“因子”。在传统的统计符号中,“Y”代表因变量,而“X”则代表因子。因此,我们希望了解Y与X之间的关系。我们想知道在Y的变化中有多大成分是由X的变化引起的。变化是一个非常重要的概念,但它不在这篇文章要讲的内容之内,将来有机会再进行详述。此外,X可以代表单一变量或者数百个变量的矩阵。在这篇文章中,为了简单起见,X只代表单一变量。
简单线性模型
正如其名字所示,线性模型假设Y与X之间的关系是线性的。我们使用的符号是:
在这个公式中,B表示X的权重(一般称为“系数”)。简单来说,B表示 “X的变化会引起Y多大的变化”。然后,我们用一些相对简单的数学公式(内嵌到Excel, R, Matlab等程序中)来计算模型中最佳的B值。这是所有回归中一个常见的主题:定义一个模型,然后使用一些数学或计算技术找到该模型的最佳权重系数。通常,不同的因子、数据的转换或模型结构被测试以找到一个最适合的经验数据。需要重点说明一下,没有哪个模型能完美的拟合数据,这是一个更高深的话题。我们要估测的被称为“BLUE”:最佳无偏线性估计。
下图能很好地说明以上内容。红点是数据,而黑线是最佳线性估计。甚至没有数学背景的人也可以很快看明白,此图很好地表现了X和Y之间的关系。但注意,黑线并没有通过许多红点。所以,虽然这条线很好地表现了X和Y之间的关系,但在各个点上实际是错误的。(这就是方程式末端的e所代表的:错误或“噪音”。)错误值是预测未来事件的一个很重要的因子,也将是我在将来的文章中要深入讨论的内容。
逻辑模型
当你想预测的是以数值表现的并且是连续的,如速度、时间、重量等时,线性模型可以满足要求。但是,当你想预测一个有二进制结果的事件,如:赢/输,活/死,完成/失败等时,就不能再用线性模型了。对于二进制结果的事件,我们最感兴趣的是该事件在给定数据下发生的概率。“反逻辑”可以很好地表现这种关系。此处我要跳过推导和数学,但你可以通过谷歌搜索快速获得你想知道相关知识。使用相同的命名法来表示逻辑回归的形式如下:
我们得出一个平滑的曲线,它表示了在X作用下Y发生的概率。下图演示了逻辑模型拟合数据的情况。注意,一些点不在曲线上。这是所有模型都会有的“错误”的另一例证。
条件逻辑回归
最后,该讲这篇文章的重点了。希望你现在已经对回归模型有一个大概的了解。
我研究颇多的一个领域是赛马。我用一系列先进的方法模拟赛马,但基本结构大致相同。我们最终想知道的是一匹马赢得比赛的概率。如果公众对该马下注的价格是错误的,我们就会有一个带有正期望值的投注机会。
需要作出一个微妙但关键的区分。我们不关心“该马的获胜概率”,我们关心的是“该马在本次比赛中获胜的概率”。当然,这是一场赛马,所以我们必须估计他在比赛中相对于所有其他马匹获胜的概率。这种概率取决于所有其他马匹的表现。例如,如果我在街上与邻居比赛跑的话,我会赢的概率是90%。但如果我与乌塞恩·博尔特比,我赢的概率只有0.00001%。所以,赢是相对于其他竞赛对手而言的。
这就需要用到条件逻辑回归(CLR)了。“条件”是指,获胜的概率是相对比赛中竞争对手的。此外,要遵循概率的规律,比赛中所有概率的和为1。
转换列表中任何数值使它们和为1,这是一个小小的数学函数,只要用它们除以和。例如,1、2、3、4、5,每个数除以10得到0.067、0.133、0.200、0.267、0.333。然而,这样我们并不能得出最佳因子权重。我们需要一个可以使用正确的数学技术的正式统计模型。等式如下:
每匹马都有一个“优势”,由线性函数的指数表示(分数式的上半部分)。比赛中所有马的优势相加(分数式的下半部分)。仔细观察很容易看出,这与上文中的例子类似。棘手的部分是求出权重。这没有封闭形式的解。一个迭代算法,往往是梯度下降,被用来计算最佳权重。一些软件包中的基本模型带有一定数量的因子,能很好地进行此类计算处理。这种模型的更好一点的版本将需要写定制计算机代码。(我用了C++和GPU并行计算,来拟合40000场比赛中的186个因子。)
总结
本文简要地说明了逻辑回归和条件逻辑回归的基本原理。目的不是要创建模型或解释模型拟合程序,而是要介绍三个模型的基本常识及其应用。对于只存在一个可能结果的事件,使用逻辑回归。对于存在多个可能结果的事件,使用条件逻辑回归。
在后续文章中,我将讨论变量筛选、转换、预测方差和许多其它适合预测模型的工具。
Noah Silverman简介
Noah Silverman拥有加州大学洛杉矶分校统计学博士学位。他专门从事预测建模和比赛、金融、能源、广告行业的咨询。你可以访问http://www.smartmediacorp.com以对他的工作进行更多的了解。