第49件事 数据监控的4种方法

小O最近在微信群经常看到公司招聘产品经理,在职位说明中基本上都会要求对运营数据敏感,能够分析数据的异常情况。看来,各个公司对产品经理的数据分析能力要求越来越高了。也是,产品没有运营数据,就好像一个人没有眼睛一样,产品的调优又从何说起呢?

老K师傅最近很开心,因为只剩下两节课了,一节是数据监控,一节是引爆流行,老K快要解放了,可是小O一想到培训即将画上句号,总是有那么点伤感和不舍。小O收拾好心情,准备迎接数据监控课程的到来。

数据监控主要是对数据的阈值(极限值)进行监控,分析异常原因,并采取相应的措施调优产品。

1.移动均值监控

简单移动均值(SMA)的计算公式为Xn+1=(X1+X2+X3++Xn)/nX_{n+1}=(X_1+X_2+X_3+\cdots+X_n)/n。相关数据如表7-11所示。

表7-11 移动均值监控

00138.jpg

对于ARPU_diff一列中的数据,正数越大或者负数越小都属于数据异常,需要重点监控和分析可能导致的原因。

2.环比同比监控

与上一统计段比较,例如2014年7月份与2014年6月份相比较,叫环比。与历史同时期比较,例如2015年7月份与2014年7月份相比,叫同比。

环比增长率=(本期数-上期数)/上期数×100%

环比增长率反映本期比上期增长了多少。订单量同比、环比监控数据如表7-12所示。

表7-12 同比、环比数据监控

00142.jpg

第1周周二与第1周周一的对比是环比,第2周周一与第1周周一的对比是同比。假设临界值(阈值)设定为15%和–15%,即高于15%或者低于–15%时数据会异常预警,此时需要重点分析导致数据异常的原因。

3.P控制图

P控制图适用于比率型数据,如整体转化率、新用户比例、活跃用户比例等。我们以电商网站的转化率为例,如图7-16所示。

图中实线CL指的是中心线,等于均值μ;上面虚线UCL指的是控制上限,等于μ+3σ;下面虚线LCL指的是控制下限,等于μ-3σ。那么到底转化率曲线在什么情况下会被认为是数据异常?主要有如下情况:

00144.jpg

图7-16 P控制图监控

  • 高于控制上限或低于控制下限。
  • 近期的3个点中的2个点都高于+2σ或都低于-2σ,近期5个点中的4个点都高于+σ或都低于-σ(有出现异常的趋势)。
  • 连续的8个点高于中心线或低于中心线(有偏向性)。
  • 连续的6个点呈上升或下降趋势(有明显的偏向趋势)。
  • 连续的14个点在中心线上下呈交替状态(周期性,不稳定)。

4.X-MR控制图

X-MR(单值-移动极差)控制图适用于数值型数据,如客单价、活跃用户数等。我们以电商网站的客单价为例,如图7-17所示。

00172.jpg

图7-17 X-MR控制图监控

图7-17左图中的上面虚线代表X_UCL,下面虚线代表X_LCL,实线代表X_CL,曲线代表客单价;右图中上面虚线代表MR_UCL,下面虚线(跟横坐标几乎重合)代表MR_LCL,实线代表MR_CL,曲线代表客MR。

其中:

移动极差MR=|X i-X i-1|

X_CL=客单价的总和/1515是样本量

X_UCL=客单价的均值+3×MR的均值/d 2=客单价的均值+2.66×MR的均值

X_LCL=客单价的均值-3×MR的均值/d 2=客单价的均值-2.66×MR的均值

MR_CL=MR的总和/14

14=样本量-1

MR_UCL=D 4×MR的均值=3.267×MR的均值

MR_LCL=D 3×MR的均值=0

公式中的d 2、D 3、D 4是极差到标准差的转化系数,相当于n=2的极差转化系数,可以看成固定值。那么到底客单价曲线在什么情况下会被认为是数据异常?主要有如下情况:

  • 高于控制上限或低于控制下限。
  • 连续7点在中心线一侧。
  • 连续的7个点上升或下降。
  • 明显有超出1/3的点落在离控制线很近的区域,或明显有少于2/3的点落在1/3的区域。

小O觉得今天的课有点复杂,消化起来有一定的难度,看来是自己统计学方面的知识和技能欠缺了点儿。要想对数据敏感,基本的数据分析和统计方法还是要掌握并能灵活运用的。

00148.jpg

数据监控最大的目的是利用移动均值、同比环比、P控制、X-MR控制图等方法发现数据的异常情况,作出预警机制,并及时进行原因分析。要求对数据比较敏感,掌握基本的统计学方法并能灵活利用。