10.3 逻辑回归技术的实践应用和注意事项

回归分析,在此主要是指包括逻辑回归技术和多元线性回归技术,是数量统计学中应用最广泛的一个分析工具,也是数据分析挖掘实践中应用得最广泛的一种分析方法(技术)。尽管从狭隘的界定来看,回归分析技术属于统计分析的范畴,但是正如本书开头所阐述的那样,绝对地划清统计分析和数据挖掘的界线,对于数据分析挖掘实践来说是没有任何意义的。只要能解决实际的业务问题,只要能提升企业的运营效率,它就是好技术,况且目前在数据挖掘实践中也大量应用回归分析技术。因此,本节将专门讨论逻辑回归技术。

10.3.1 逻辑回归的原理和核心要素

当目标变量是二元变量(即是与否)的时候,逻辑回归分析是一个非常成熟的、可靠的主流模型算法。

对于二元(是与否)的目标变量来说,逻辑回归的目的就是要预测一组自变量数值相对应的因变量是“是”的概率,这个概率P是介于[0,1]之间的。如果要用线性回归方法来进行概率计算,计算的结果很可能是超出[0,1]范围的。在这种情况下,就需要用到专门的概率计算公式了,或叫Sigmoid函数,其计算公式如下:

00099.jpeg

上述概率算法可以确保二元目标变量的预测概率P是介于[0,1]之间的。

其中,β0是常数,β1到βk是自变量x1到xk各自所对应的系数。

按上述公式应用后的Sigmoid分布曲线如图10-2所示。

00100.jpeg

图 10-2 Sigmoid分布曲线

接下来进一步深入理解,这里引入了可能性比率(ODDS)这个概念。

可能性比率(ODDS)是指一件事情发生的概率除以这件事情不发生的概率后得到的值,博彩活动中的赔率就是可能性比率,其在现实生活中是一个广为人知的应用案例。

可能性比率为5,说明一件事件发生的可能性比不发生的可能性高5倍;

可能性比率为0.2,说明一件事情发生的可能性为不发生的可能性的1/5;

可能性比率小于1,说明一件事情发生的概率低于50%;

可能性比率大于1,说明一件事件发生的概率高于50%;

与概率不同的是,可能性比率的最小值为0,但最大值可以是无穷大。

可能性比率是逻辑回归中连接自变量和因变量的纽带,我们可以从下面的公式演变中体会这句话的意思。

00101.jpeg

将上述两个公式合并,就会成为现在广泛应用的逻辑回归算法:

00102.jpeg

该公式也可以表现为:

00103.jpeg

逻辑回归使用的参数估计方法通常是最大似然法,利用最大似然法进行参数的估计时,通常有如下步骤:

设Y为0-1型变量,X=(x1,x2,…,xp)是与Y相关的变量,n组观测数据为(xi1,xi2,…,xip;yi)(i=1,2,…,n),yi与xi1,xi2,…,xip的关系如下:

00104.jpeg

其中,函数f(x)是值域在[0,1]区间的单调递增函数,对于逻辑回归(Logistic Regression),有figure_0168_0105

于是,yi是均值为πi=f(β0+β1xi1+β2xi2+…+βpxip)的0-1分布,其概率函数为

P(yi=1)=πi

P(yi=0)=1-πi

可以把yi的概率函数合写为figure_0169_0106

于是y1,y2,…,yn的似然函数则为figure_0169_0107

对上述似然函数取对数,得

00108.jpeg

对于逻辑回归,将figure_0169_0109代入上式,得

00110.jpeg

上述式子被称为对数似然函数,其目的就是求出该式子的最大值,其中会涉及非线性方程组的求解,运算量非常大,所幸的是这些工作现在都有现成的软件可以代替人工计算了,数据分析师只需要知道其中的原理就可以了。

需要强调的是,对于通过上述最大似然法得到的参数估值,还需要进行相应的显著性检验,对于回归系数βi的估计值figure_0169_0111的显著性检验通常使用的是Wald检验,其公式为figure_0169_0112

其中,D(figure_0169_0113)为回归系数βi的估计值figure_0169_0114的标准差。如果βi的估计值figure_0169_0115的Wald检验显著,通常来讲,变量对应的P-Value如果小于0.05,这时可以认为该自变量对因变量的影响是显著的,否则影响不显著。

10.3.2 回归中的变量筛选方法

无论是线性回归,还是逻辑回归,在回归拟合的过程中,都要进行变量的筛选,并且有各种不同的筛选方法,其中最常见、最著名的3种方法分别是向前引入法(Forward Selection)、向后剔除法(Backward Elimination)、逐步回归法(Stepwise Selection)。

❑向前引入法(Forward Selection)。即采用回归模型逐个引入自变量。刚开始,模型中没有自变量,然后引入第一个自变量进入回归方程,并进行F检验和T检验,计算残差平方和。如果通过了检验,则保留该变量。接着引入第二个自变量进入回归模型中,重新构建一个新的估计方程,并进行F检验和T检验,同时计算残差平方和。从理论上说,增加一个新的自变量之后,回归平方和应该增加,残差平方和应该减少。引进一个新自变量前后的残差平方和之差额就是新引进的该自变量的偏回归平方和,如果改值明显偏大,说明新引进的该自变量对目标变量有显著影响,反之则没有显著影响。向前引入法最大的缺点是最先引入回归方程的变量在随后不会被剔除出去,这会对后面引入的变量的评估过程和结果造成干扰。

❑向后剔除法(Backward Elimination)。向后剔除法正好与向前引入法相反,即首先把所有的自变量一次性放进回归模型中进行F检验和T检验,然后逐个删除不显著的变量,删除的原则是根据其偏回归平方和的大小来决定的。如果偏回归平方和很大则保留,否则删除之。向后剔除法最大的缺点是可能会引入一些不重要的变量,并且变量一旦被剔除之后,就没有机会重新进入回归模型中了。

❑逐步回归法(Stepwise Selection)。该方法综合了上述两种方法的特点。自变量仍然是逐个进入回归模型中,在引入变量时需要利用偏回归平方和进行检验,只有显著时才可以加入。当新的变量加入模型之后,又要重新对原来的老变量进行偏回归平方和的检验,一旦某变量变得不显著时就要立即删除该变量。如此循环往复,直到留下来的老变量均不可删除,并且新的变量也无法加入为止。

10.3.3 逻辑回归的应用优势

相比于数据挖掘建模常用的其他算法如决策树、神经网络、邻近记忆推理等,逻辑回归技术是最成熟、应用最广泛的,也是数据分析师和数据化运营业务人员最为熟悉的。在各种新的数据挖掘算法层出不穷的今天,逻辑回归技术仍然具有强大的活力和最广泛的业务应用基础。

10.3.4 逻辑回归应用中的注意事项

逻辑回归实践应用中的注意事项如下:

❑建模数据量不能太少,目标变量中每个类别所对应的样本数量要足够充分,才能支持建模。

❑要注意排除自变量中的共线性问题。关于共线性问题,可参考本书8.7节。

❑异常值(Outliers)会给模型带来很大干扰,应该删除。

❑逻辑回归模型本身不能处理缺失值(Missing Value),所以应用逻辑回归算法的时候,要注意针对缺失值进行适当的处理,或者赋值,或者替换,或者删除,可参考本书8.4.1节。