Related Articles
Related Jobs
在过去的九个月中,笔者一直从事体育博彩模型建模的工作,在研究中笔者发现有一个数学方法经常被使用到,就是所说的Logit分对数函数。分对数函数对未知数p通过ln(p/p(1-p))在负无穷到正无穷范围内对其计算取值,换句话说,它的物理意义就是事件发生或不发生的概率。
分对数函数能被用来发现存在于各种可能性中的最佳“空间”所在。比如说要对一场网球比赛建模,并且你可以大言不惭的说在你的发球局比在对手的发球局多10%的得分机会。这样听起来似乎合理,但是如果是一场一边倒的比赛,即便是在对手的发球局,己方的得分率也高达95%,很明显前面提到的那10%的概率就没有意义了。问题的所在就是线性位移在可能性域中并不适用,1%的变化对p=0.5的事件来说,比对p=0.02的事件影响小了太多。非常可惜的是,线性增长是大多数回归算法和模型的主干,对此我们可以将可能性概率转换到一个合适的域内,在该域中线性增长的命题是成立的,然后我们再将这个增长转换回可能性概率的域中进行分析。
分对数域是一个不错的选择,取定一个概率值,求出其 ln(p/p(1-p))的计算结果,再加上相应的位移,然后通过其反函数(通常叫做逻辑函数,表达式为1/(1+e^(-x)))来返回到可能性的概率值。分对数函数值在变量p取在0到1之间时无限接近于正无穷和负无穷,所以位移在50%处带来的变化远大于在2%的地方。
在分对数域中的线性位移是逻辑回归背后的数学计算,如果想要对“自变量”和概率之间的关系进行定量分析,比如说对二元自变量“球队获得红牌”和在限定时间内进球得分,逻辑回归算法就可以很好的来解决这个问题,笔者的篮球比赛赛中模型就是基于逻辑回归多项式组合的。这些属于逻辑回归的扩展,是用来计算单个自变量(或多个自变量)对某单一事件所产生多个结果的不同概率的影响。举个例子,在一场篮球赛中,比赛时间和双方比分差距是如何对不同控球比产生影响的,比如说,两分球,三分球,防守篮板球等等。运用回归系数可以创建一个函数“代入”比分差和控球时间长度,并且能返回对结果的预测概率,逻辑回归中逻辑的那部分可以确保所有概率之和为1。笔者强烈推荐使用R语言中“nnet”工具包里的“multinom”函数。不过如果是对超过百万份样本的“大数据”进行处理,请做好每一次回归计算要花费几个小时的心理准备。
分对数函数能被用来发现存在于各种可能性中的最佳“空间”所在。
分对数域对定量分析概率估计中的不确定性也有很大帮助。对于博彩公司和体彩交易员来说,价格估计的精准度至关重要。理想情况并不是对一种结果的概率p做出单一值的预估,而是在存在分布时,或概率密度函数(pdf)时,来对每一个概率p成为真实值的判断。
这就使得更多的新概率出现,举个例子,假设你需要为一场斯诺克比赛的赌局定价,你有对“选手A”在任一局中的获胜几率有一个初始判断p_A,然而如果在比赛中选手A的表现大大超出了你的期望,你心中p_A的值也会相应的发生改变。数学上可以通过贝叶斯推断来p_A值自行更正,当然这同时也需要设定一个作为你的初始判断的分布,称为“优先”分布。在理工科领域,特别是物理学实验中,这个逻辑上的选择往往是一个正态分布,但是如果这个分布适用于p_A的话,那么p_A的值在这个分布的影响下会落在0到1这个区间之外。分对数域 对大多数情况使用分对数域内的一个正态分布(分对数正态分布,在极端情况下使用更窄的分布,如此一来,分对数域就可以很好的解决问题,如下所示
现在可以为分对数正态先验分布σ来选定不确定性的初始值p_A,对于走势明朗的比赛,当你知道更精确的选手A的获胜几率范围时,可以取更小的σ取值。反之,对走势难判的比赛,可以设定较大的σ值。如果发现选手A的表现开始超出预料时,与走势明朗的赛事相比,高贝叶斯推断对于走势模糊的比赛可以在分布上造成更大的位移。对走势不清晰的比赛,应该更倾向于改变最初的不可靠的判断,即使是自己认为走势明朗的比赛,也要根据选手的实际发挥来看问题。
上文对于如何为初始的p_A值选取分布已经做了一定分析,博彩公司可以使用它来对多个市场增加盈利优势(交易公司/交易员也可以利用它来“抽取”盈利优势)。就笔者个人经验来说,博彩公司更倾向于将优势盈利以百分比形式加在对于某个事件结果的期望收益和实际收益的偏差上,当然这个事件是不断重复发生的。现在我们可以通过分对数正态分布来对不确定性进行描述,也许将所说的盈利优势以比例加到分对数域的固定位移上更为准确。为了避免泄露太多的商业机密,笔者将具体的数学计算留给读者完成,祝大家好运。