交易中的条件逻辑回归

Silverman博士以赛马为例介绍了逻辑回归模型,并讨论了条件逻辑回归的好处和应用。

Categories: 体博网期刊, 初级, 统计模型, 职业级, 赌注价格, 赛马

Related Articles

Related Jobs

逻辑回归(又叫Logit模型)是预测0 / 1事件结果(赢或输)建模的基本工具。在这篇文章中,我将进一步解释如何将条件逻辑回归模型应用于多种有2个以上结果的比赛中(如赛马)。

我首先会快速回顾一下线性回归,然后过渡到逻辑回归,最后探讨条件逻辑回归。本文所有的例子将来自一个虚拟的赛马比赛。

概述

所有模型都从一些对世界如何运作的假设和信念开始。这些假设是很重要的,但我们现在先跳过它们讲些别的。我们最初想试图基于数据来预测某事物。我们试图预测的事物一般被称为“因变量”,我们使用的数据被称为“自变量”或“因子”。在传统的统计符号中,“Y”代表因变量,而“X”则代表因子。因此,我们希望了解Y与X之间的关系。我们想知道在Y的变化中有多大成分是由X的变化引起的。变化是一个非常重要的概念,但它不在这篇文章要讲的内容之内,将来有机会再进行详述。此外,X可以代表单一变量或者数百个变量的矩阵。在这篇文章中,为了简单起见,X只代表单一变量。

简单线性模型

正如其名字所示,线性模型假设Y与X之间的关系是线性的。我们使用的符号是:

在这个公式中,B表示X的权重(一般称为“系数”)。简单来说,B表示 “X的变化会引起Y多大的变化”。然后,我们用一些相对简单的数学公式(内嵌到Excel, R, Matlab等程序中)来计算模型中最佳的B值。这是所有回归中一个常见的主题:定义一个模型,然后使用一些数学或计算技术找到该模型的最佳权重系数。通常,不同的因子、数据的转换或模型结构被测试以找到一个最适合的经验数据。需要重点说明一下,没有哪个模型能完美的拟合数据,这是一个更高深的话题。我们要估测的被称为“BLUE”:最佳无偏线性估计。

下图能很好地说明以上内容。红点是数据,而黑线是最佳线性估计。甚至没有数学背景的人也可以很快看明白,此图很好地表现了X和Y之间的关系。但注意,黑线并没有通过许多红点。所以,虽然这条线很好地表现了X和Y之间的关系,但在各个点上实际是错误的。(这就是方程式末端的e所代表的:错误或“噪音”。)错误值是预测未来事件的一个很重要的因子,也将是我在将来的文章中要深入讨论的内容。

逻辑模型

当你想预测的是以数值表现的并且是连续的,如速度、时间、重量等时,线性模型可以满足要求。但是,当你想预测一个有二进制结果的事件,如:赢/输,活/死,完成/失败等时,就不能再用线性模型了。对于二进制结果的事件,我们最感兴趣的是该事件在给定数据下发生的概率。“反逻辑”可以很好地表现这种关系。此处我要跳过推导和数学,但你可以通过谷歌搜索快速获得你想知道相关知识。使用相同的命名法来表示逻辑回归的形式如下:

我们得出一个平滑的曲线,它表示了在X作用下Y发生的概率。下图演示了逻辑模型拟合数据的情况。注意,一些点不在曲线上。这是所有模型都会有的“错误”的另一例证。

条件逻辑回归

最后,该讲这篇文章的重点了。希望你现在已经对回归模型有一个大概的了解。

我研究颇多的一个领域是赛马。我用一系列先进的方法模拟赛马,但基本结构大致相同。我们最终想知道的是一匹马赢得比赛的概率。如果公众对该马下注的价格是错误的,我们就会有一个带有正期望值的投注机会。

需要作出一个微妙但关键的区分。我们不关心“该马的获胜概率”,我们关心的是“该马在本次比赛中获胜的概率”。当然,这是一场赛马,所以我们必须估计他在比赛中相对于所有其他马匹获胜的概率。这种概率取决于所有其他马匹的表现。例如,如果我在街上与邻居比赛跑的话,我会赢的概率是90%。但如果我与乌塞恩·博尔特比,我赢的概率只有0.00001%。所以,赢是相对于其他竞赛对手而言的。

这就需要用到条件逻辑回归(CLR)了。“条件”是指,获胜的概率是相对比赛中竞争对手的。此外,要遵循概率的规律,比赛中所有概率的和为1。

转换列表中任何数值使它们和为1,这是一个小小的数学函数,只要用它们除以和。例如,1、2、3、4、5,每个数除以10得到0.067、0.133、0.200、0.267、0.333。然而,这样我们并不能得出最佳因子权重。我们需要一个可以使用正确的数学技术的正式统计模型。等式如下:

每匹马都有一个“优势”,由线性函数的指数表示(分数式的上半部分)。比赛中所有马的优势相加(分数式的下半部分)。仔细观察很容易看出,这与上文中的例子类似。棘手的部分是求出权重。这没有封闭形式的解。一个迭代算法,往往是梯度下降,被用来计算最佳权重。一些软件包中的基本模型带有一定数量的因子,能很好地进行此类计算处理。这种模型的更好一点的版本将需要写定制计算机代码。(我用了C++和GPU并行计算,来拟合40000场比赛中的186个因子。)

总结

本文简要地说明了逻辑回归和条件逻辑回归的基本原理。目的不是要创建模型或解释模型拟合程序,而是要介绍三个模型的基本常识及其应用。对于只存在一个可能结果的事件,使用逻辑回归。对于存在多个可能结果的事件,使用条件逻辑回归。

在后续文章中,我将讨论变量筛选、转换、预测方差和许多其它适合预测模型的工具。

Noah Silverman简介

Noah Silverman拥有加州大学洛杉矶分校统计学博士学位。他专门从事预测建模和比赛、金融、能源、广告行业的咨询。你可以访问http://www.smartmediacorp.com以对他的工作进行更多的了解。

 

About Dr. Noah Silverman

Noah Silverman holds a PhD in statistics from UCLA, and has worked with data and technology for over 20 years.

The focus of Dr. Silverman’s work is on developing probabilistic models for complex and stochastic systems.

Some of his specialties include complex predictive modeling, Hierarchical Bayesian models, machine learning, nonlinear classifiers, support vector machines, and textual analysis. He has published several papers on mathematical modeling of complex data systems with innovative analysis methods. In addition, he has developed successful solutions for a large number of clients in Finance, Digital Advertising, Sports Betting, crypto-currency, Education, Medical, and other industries. Prior to consulting, he conceptualized and founded several technology firms including webclipping.com and trademarktracker.com.

No Thoughts on 交易中的条件逻辑回归

Leave A Comment