12.2 统计技术在数据化运营中最重要最常见的应用

统计技术是数据分析挖掘的基础,虽然本书多次强调在企业的数据化运营实践中并不需要严格区分统计技术与挖掘技术,只要能解决企业实际问题的技术就是好技术,但是如果从分析技术的使用集中度来看,在效果分析类型的业务场景中,统计技术里的假设检验是应用得最集中、最普遍、最频繁的,并且可以有效提供最终的评判结论。换句话说,在效果分析类型的业务场景中,通过假设检验技术完全可以满足分析需求。鉴于此,本章将详细讲解假设检验中与运营效果分析最相关、最常见、最主要也是最基本的一些分析方法和技术。

12.2.1 为什么要进行假设检验

之所以要对运营的效果进行假设检验评估,主要是基于以下两方面的原因:

❑为了精确地区分出运营效果的差别到底是随机因素引起的,还是因为运营的因素引起的,以及在多大置信度内可以肯定是因为随机因素引起的,或者是因为运营的因素引起的。

❑在很多情况下,效果的评估是基于样本的观测来进行的,为了从样本的结论里推导出总体的结论,也必须进行假设检验来判断样本的差异能否代表总体的差异,同时还要确定样本的差异在多大的置信度内可以代表总体的差异。

接下来着重介绍假设检验中与运营效果分析应用最密切、最常见的一些技术和方法,其包括T检验、F检验、非参数检验、卡方检验、控制变量的方法及ABtest方法。

12.2.2 假设检验的基本思想

在日常生产、生活和商业实践中,经常会碰到对于总体的一些判断,比如生产线上瓶装饮料的净重是否达标,细分用户群体的活跃度提升是否显著等,所有这些判断都有两个选择,要么达标,要么不达标;要么显著,要么不显著。即是非判断:要么是A,要么是非A。这两种选择对应的就是两个假设,一个是原假设H0(Null Hypothesis),一个是备选假设H1(Alternative)。相对于假设而言,在一次观察或试验中几乎不可能发现的事情,称之为小概率事件,小概率事件在一次试验中发生的概率则被称为显著性水平。

假设检验的基本思想和原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否会发生。如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,因此有理由拒绝原假设,而接受备选假设;如果在一次试验中,小概率事件没有发生,只能说明没有足够的理由相信假设是错误的,但是并不能说明假设是正确的,因为无法收集到足够的证据证明假设是正确的。

从上面的讲解中可以看出,假设检验的结论是基于一定的显著性水平而得出的。因此,在观测事件并下结论时,有可能会犯错。在假设检验过程中,无法保证永远不犯错误,这些错误归纳起来有以下两类:

❑第Ⅰ类错误:当原假设为真时,却否定它而犯的错误,即拒绝正确假设的错误,也叫弃真错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,即α=1-置信度。

❑第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误,即接受错误假设的错误,也叫纳伪错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。

上述这两类错误在其他条件不变的情况下是相反的,也即α增大时,β就减小;α减小时,β就增大。α错误容易受分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05,也可以取0.1、0.001。

12.2.3 T检验概述

T检验是大多数统计学教程中最先提到的统计分析方法和假设检验方法,在数据化运营的效果分析中也是应用得最多的方法和技术。T检验主要用以检验两组样本的均值相等的原假设。

在某些场合中,各组观察值是独立的,比如两组测试样本群体,一组是运营组,一组是对照组,运营组的样本是用来进行有针对性的运营活动的,而对照组的样本则会刻意避免有针对性的运营活动,这样才可以比较合理地进行运营效果的对比和评估;但是,在另外一些场合中,两组样本又会是配对关系,比如,针对某组用户,在进行针对性运营活动之前的活跃度与进行针对性运营活动之后的活跃度的差别比较。前者的独立对比是在两组观察值相互独立的情况下进行的,称为独立组样本的比较,通常采用独立组样本T检验方式;后者的配对比较是对观察值本身进行前后对比,而且是前后一一对应的配对关系,称为配对组样本的比较,通常采用配对组样本T检验方式。

鉴于T检验涉及独立样本和配对样本的区别,并且还涉及相应的条件是否满足等因素,因此下面将分别进行详细阐述。

12.2.4 两组独立样本T检验的假设和检验

两组独立样本T检验要求数据符合以下3个条件:

❑观察值之间是独立的。所谓独立,是指观察值相互之间没有牵连关系。

❑每组观察值来自正态分布的总体,这个要求决定了数据必须是区间型(Interval)以上的变量。我们知道,严格意义上的正态分布是一种倒钟形的图形,如果将其图形沿着中心位置对半折叠,则其均值、众数、中位数3者会重叠在一起。因此可以说,正态分布是由其均值和标准偏差决定的,正态分布的特征是:对称的、偏度(Skewness)为0;呈钟形分布,峰度(Kurtosis)为0。当然,也可以专门用统计软件进行数据分布的正态性检验,当pr<w的概率值小于给定的α值0.05时,(α值一般有0.1、0.05和0.01 3种常规取值,分别表示显著性水平为:中等显著、显著和高度显著,说明数据不是来自正态分布的。)在SAS中,用于检验正态性的程序代码如下:

Proc UNIVARIATE data=数据集 NORMAL;

VAR 变量;

RUN;

❑两个独立组的方差相等。

如果两个独立样本的数据满足上述3个基本条件,就可以进行接下来的T检验,即均值相等的检验了。

示范案例:某公司运营团队为了针对活跃度提升专题运营活动的效果进行测试,从同样的客户群体中抽出两组人群,一组作为运营组,通过针对性的运营活动希望提升其网站活跃度;另一组作为对照组,该组客户不做任何运营触碰,只是在后期与前面的运营组客户进行效果对比。30天的运营活动结束后,分别收集两组客户的网站活跃度分数,看两组分数是否有明显的差异。

在SAS中,两组独立样本的T检验利用简单的TTest过程步骤可以实现,本案例具体程序代码如下:

Proc TTest data=Work.One;

Class group;

VAR score;

Run;

上述命令针对数据集One中两个样本人群组group进行了关于活跃度分数score是否相等的T检验,该数据集有两个样本人群分别为a和b。

运行上述程序后得到针对两个独立样本进行T检验后的结果,如图12-1所示。

00127.jpeg

图 12-1 两组独立样本的T检验结果

从图12-1可以看出,pr>F的值为0.372 6,该值大于α理论值0.05,所有没有理由拒绝方差相等的假设,因而上述两组样本的方差是相等的。

再看T-Tests:pr>|t|的值为0.000 6,小于α理论值0.05,所以有足够的理由拒绝两个样本的均值差为0的假设,也即两个样本组的活跃度分数的均值是不相等的。

12.2.5 两组独立样本的非参数检验

虽然两组观察值是各自独立的,但是每组观察值不一定来自正态分布的总体,同时两个独立样本组的方差也不一定相等,这时就不能采用独立样本的T检验了,而必须进行两组独立样本的Wilcoxon秩和检验。

两组独立样本的Wilcoxon秩和检验方式是比较两个独立组观察值的一种非参数检验。该检验结果类似于T检验的结果,该检验用于次序变量、区间变量和比例变量中。

还是以上述案例为例,假设案例的数据不满足T检验的前提条件,那么就应该采用两组独立样本的Wilcoxon秩和检验,在SAS中,可利用Proc Npar1way的过程语句来实现,程序代码如下:

Proc Npar1way data=Work.One WILCOXON;

Class group;

VAR score;

Run;

运行上述程序后得到两个独立样本进行Wilcoxon秩和检验后的结果,如图12-2所示。

00128.jpeg

图 12-2 两组独立样本的Wilcoxon秩和检验的结果

在图12-2中可以看到,Two-Sided pr>|Z|的值为0.011 1,小于α理论值0.05,所以有足够的理由拒绝原假设两个独立组的均值相等,也即两个独立组的活跃度分数的均值是不相等的。

需要强调的是,如果Two-Sided pr>|Z|的值大于α理论值0.05,则结论是两个独立组的均值没有显著差异,但是并不能说成两个独立组的均值相等。

12.2.6 配对差值的T检验

在数据化运营的实践应用场景中,进行配对组样本的比较时,一般是对样本运营前后的情况进行对比,比如针对运营前后的网站活跃度进行对比,通过T检验,来判断运营活动是否明显提升了样本人群的网站活跃度。

对配对组差值进行T检验的条件类似于独立组样本的T检验的条件,其中包含以下两个条件:

❑每对观察值与其他观察值之间相互独立。

❑配对差值来自正态分布。

由于是配对差值的检验,所以配对差值T检验只用于区间以上的变量。

示范案例:某公司运营团队从某个细分客户群体中随机抽取一部分客户进行有针对性的“旨在提升其网站活跃度”的专题运营活动,在为期两周的专题运营活动结束后,收集参与活动的客户运营前后的网站活跃度分数,希望通过数据分析来判断该专题运营活动的提升效果是否显著。

配对差值T检验在SAS中采用PROC Univariate过程来实现,本示范案例的具体程序代码如下:

Proc UNIVARIATE data=two;

VAR diff;

Run;

客户的前后活跃度分数的数据集存放在two表中,其前后活跃度分数的差值定义为diff。

上述程序运行后得到对配对差值进行T检验后的结果,如图12-3所示。

00129.jpeg

图 12-3 配对差值的T检验的结果

从图12-3的T检验结果可以看出:

Student's t(T检验),pr>|t|的值为0.0017,远远小于α理论值0.05,所以有足够的理由拒绝原假设(即配对差值与0的差别不明显),也即配对差值明显不为0。

如果pr>|t|的值大于α理论值0.05时,则没有足够的理由拒绝原假设,即配对差值与0的差别不明显,结论是配对差值与0的差别不显著,但是并不能说配对差值明显为0。

12.2.7 配对差值的非参数检验

如果每对观察值与其他观察值相互之间是独立的,但是每组观察值不一定来自正态分布的总体,这时就不能采用配对差值的T检验了,而必须进行配对差值的Wilcoxon秩和检验。

还是以上述配对差值T检验的案例来进行说明,针对配对差值的Wilcoxon秩和检验过程如下。

在SAS中,配对差值的Wilcoxon秩和检验仍然是采用PROC Univariate过程来实现的。但是观察的指标不同。

这里仍然以12.2.6节中的数据和代码为例,配对差值的Wilcoxon秩和检验仍然是采用PROC Univariate过程来实现的,运行该程序后得到的Wilcoxon秩和检验结果,如图12-4所示。

00130.jpeg

图 12-4 配对差值的Wilcoxon秩和检验结果

对于配对差值进行Wilcoxon秩和检验的统计量,只需要观察pr>|S|后面的值,相当于概率P即可。

回到本示范案例,从图12-4的结果中可以看出,pr>|S|后面的值为0.007 8,远远小于α理论值0.05,表明配对差值明显不为0。如果pr>|S|后面的值大于α理论值0.05,则表明平均配对差值与0的差别不明显,但千万不能说成平均配对差值为0。

12.2.8 方差分析概述

当我们分析的对象不限于两个独立样本组,而是扩展到更多个样本组时,T检验就不适用了,在这种情况下,就需要进行方差分析(Analysis of Variance,ANOVA),或者叫做F检验。

方差分析是利用样本数据检验两个以上的总体均值是否有差异来进行分析的一种方法。在研究一个变量的时候,它能够解决多个总体的均值是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响的方法。通俗地理解,方差分析是T检验的扩展,T检验用于两组连续型数据的比较,而方差分析则用于三组或三组以上的连续型数据的比较。

方差分析也要满足以下3个前提条件:

❑各组观察值是来自于正态分布的总体的随机样本。

❑各组观察值之间是相互独立的。

❑各组观察值具有同方差性。

根据分析因素的个数不同,方差分析可以分为单因素方差分析和多因素方差分析。

所谓多因素方差分析,是指当有两个或两个以上的因素对因变量产生影响时,采用此方法,利用假设检验的过程来判断多个因素是否对目标变量产生明显的影响。

在运营效果分析实践中最常见的是单因素的方差分析,比如,针对多个样本组,都是从同样的总体中随机抽取的,只是随后的运营策略有所不同,同时比较运营后的行为指标有所差异的场景。单因素实际上就是运营策略的不同,单因素方差分析就是希望通过假设检验来验证运营策略的不同是否真的导致了随后各样本组的行为指标之间有差异。所以,针对方差分析的介绍,本章只限于单因素的方差分析,至于多因素方差分析、协方差分析,感兴趣的读者可以查阅相关的统计专业书籍进行更详细的了解。

12.2.9 单因素方差分析

单因素方差分析(One-Way ANOVA)主要研究单个因素对目标变量的影响,这种方式将通过因素的不同水平对目标变量进行分组计算,得到组间和组内方差,并利用方差比较对分组所形成的总体均值进行比较,从而对各总体均值相等的原假设进行检验。

示范案例:某公司运营团队计划对某一类特定客户群体进行不同内容的,旨在提升客户网站活跃度的运营刺激,不同的运营内容分别为a、b、c、d、e 5种方案。这时,将从上述客户群体中随机抽取一部分客户,然后将其分别分配到这5种不同的运营方案中。在为期两周的运营活动结束后,运营方希望通过数据分析来评价不同的运营方案,是否在客户的活跃度提升上有明显的差异。

在SAS中,单因素方差分析是通过ANOVA过程来实现的,本案例具体的程序代码如下:

Proc ANOVA data=three;

Class group;

Model score=group;

Means group/snk;

Means group/scheffe tukey;

Run;

上述程序运行后得到了单因素方差分析的结果,如图12-5~图12-8所示。

从图12-5可以看出:F检验的概率(pr>F)值为0.0062,远远小于α理论值0.05,所以可以拒绝H0,同时表明运营方案(或内容)不同,则客户的活跃度提升分数也不相同。

00131.jpeg

图 12-5 单因素ANOVA输出的结果

从图12-6可以看出,经过SNK方法检验,C组客户的活跃度分数与其他各组的客户活跃度分数有明显的区别。

00132.jpeg

图 12-6 单因素ANOVA的SNK(Student-Newman-Keuls)检验结果

从图12-7可以看出,经过Tukey方法检验,c组分数与a、b、d、e各组的分数差异明显。

00133.jpeg

图 12-7 单因素ANOVA的Tukey检验结果

从图12-8可以看出,经过Scheffe方法检验,c组与e、d组的分数差异非常明显。

00134.jpeg

图 12-8 单因素ANOVA的Scheffe检验结果

12.2.10 多个样本组的非参数检验

如果多个样本组的数据不是来自正态分布的总体,或者各样本组的方差不相等,在这些场景中,就不能使用方差分析的方法了,而只能采用非参数检验的方法。

还是以上一节的案例为例来进行说明,在为期两周的运营活动结束后,运营方希望通过数据分析来评价不同的运营方案是否对客户的活跃度提升有明显的差异。

最常用的多个样本组的非参数检验方法是Kruskal-Wallis检验,但在SAS中仍然可以利用NPAR1WAY过程中的Wilcoxon方法来实现,示范案例的具体程序代码如下:

Proc npar1way data=four Wilcoxon;

VAR score;

Class group;

Run;

运行上述程序后得到了非参数检验的结果,如图12-9所示。

00135.jpeg

图 12-9 多个独立样本组的Kruskal-Wallis检验结果

依据图12-9中的Kruskal-Wallis检验统计量对应的P值,即pr>Chi-Square<0.0001来看,在给定的显著性水平α=0.05的条件下,可知不同群体(Group)所反映的活跃度分数(Score)的总体位置是不相同的,即可以认为不同群体的活跃度分数是有明显差异的。

12.2.11 卡方检验

卡方检验(Chi-Square Test)也是一种应用非常广泛的假设检验方法,它属于非参数检验的范畴,主要是比较两个和两个以上的样本率(构成比例),以及对两个分类变量的关联性进行分析,其根本思想是比较理论频数和实际频数的吻合程度或者拟合度。

关于卡方检验的原理和公式,本书在第8.6.5节已有详细介绍,在这里就不再赘述了。

示范案例:某公司运营部门根据用户的属性将用户分为5个不同的群体Segment,分别为a,b,c,d,e 5个群体,并从总体中提取5个群体中的一些样本,分别针对各个群体在过去30天内是否发生网上交易(Make-Deal)的记录进行统计,现在想知道不同群体之间发生网上交易的比例是否有明显的差别。

卡方检验在SAS中可以通过Freq过程来实现,本示范的具体程序代码如下:

Proc freq data=five;

Table segment*make_deal/chisq;

Run;

运行上述程序后得到卡方检验的结果,如图12-10所示。

00136.jpeg

图 12-10 卡方检验的结果

从图12-10的结果中可以看出,Chi-Square统计量的值为4.0133,其对应的P值,即Prob值为0.404 2,假定显著性水平α=0.05,则P值远远大于α,因此没有理由拒绝细分群体与是否成交之间相互独立的原假设,也就是说细分群体之间的成交情况没有明显的关联性。

12.2.12 控制变量的方法

除了上面谈到的这些基本的、常见的统计分析检验技术之外,在数据化运营的商业实践中,针对运营效果进行分析时还有一些重要的思路和策略,利用这些思路和策略来处理数据可以有效提升分析效率,更好、更准确地发现正确的结论。其中,最常见的一个思路和策略就是控制变量的方法。

所谓控制变量,是指在分析某个核心因素针对不同群体的运营效果时,为了防止其他因素的干扰,而人为地将考虑到的其他因素,即一些潜在的、重要的、可能影响运营效果的因素进行固化(或排除),从而在一个人为控制的比较单纯的数据中专门分析核心因素的影响。

虽然从统计学的角度看,多个因素对目标变量的影响可以通过方差分析、协方差分析等方法加以解决,但是这些复杂的统计方法不是运营团队中的每个人都可以熟练掌握的;另外,控制变量的方法本身简单易行,通俗易懂,所以在数据化运营的商业实践中还是有很大的应用空间的。

举例来说,为了分析在线旺铺装修要素对于在线成交的影响,数据分析师在分析之前应该了解,对于在线成交的潜在影响因素,从电子商务平台的买卖双方的行为来看,有太多的可能性,如在线广告的投放、线上商品的Offer情况、商品的价格、品类、促销措施、卖家资质、卖家规模等都要考虑,至于在线旺铺装修要素对于在线成交的影响,放在上面提到的电子商务平台的买卖双方的海量行为因素中,就很有可能会被其他因素所掩盖。在这种情况下,为了专门分析在线旺铺装修要素对在线成交量的影响,就很有必要在分析之前考虑控制变量的方法,即把那些跟在线成交密切相关的因素排除在外,这些核心因素包括购买了在线点击付费广告P4P业务,并且最终的分析样本应该在很多核心因素方面是一致的,比如商品来自同一个品种,卖家具有相同的资质和规模,价格基本上属于同一个层次,所抽取的数据都没有受促销措施的影响等。只有把这些应该考虑的核心因素都考虑到,并且都进行了有效的控制,才可以在一个比较单纯的数据集中专门分析在线旺铺装修要素对于在线成交量的影响。

12.2.13 AB Test

提到AB Test,人们最容易想起的就是它是在网页设计优化中的一种比较策略。同一个功能页面,设计两种不同的页面布局(或风格),通过技术手段将两种不同风格的页面设计随机分配给浏览该功能页面的不同访问者,根据随机分配的页面浏览转换效果,来评价不同设计风格的优劣。

其实,除了上面提到的网页设计和优化中常常用到这种方法之外,AB Test与控制变量的方法一样可以看做是进行运营效果分析时的思路和策略,也是数据化运营实践中运营团队最熟悉的方法论。

AB Test最基本的含义就是对于一个运营活动的效果进行评价。在使用此方法时,一定要事先把同一类客户群体随机分成A和B两组,一组进行运营,另一组不进行运营,这样才可以比较合理地评估运营的效果;或者一组采用甲方案进行运营,另一组采用乙方案进行运营。但是,也并不是说只能局限于两个样本组,在实践中可以根据具体项目需求分成多个分组。

使用AB Test方法时要注意以下的几点:

❑参与AB Test的客户群体应该是来自同一个总体的,应具有相同的特征或属性;否则,A组的客户与B组的客户本来就是特征相同,属性相异,那接下来的效果分析到底是运营带来的,还是客户本身的属性差异造成的,就很难说清楚了。

❑与AB Test相关的其他业务因素应该一致,也就是说除了要分析的特定运营条件外,其他的业务因素应该一致,这样就可以在其他条件一致的情况下准确考察特定运营条件对运营效果的影响了。