13.5 路径分析的主要算法

对于互联网行业的用户路径分析,有多种不同的分析思路和算法,下面介绍最常见的几种分析思路和算法。

13.5.1 社会网络分析方法

社会网络分析(Social Network Analysis),也叫做链接分析(Link Analysis)。其作为一个单独的分析领域,目前已经得到了快速的发展。其初衷是研究社会实体,即组织中的人,或称参与者,以及他们之间的活动和关系,这种网络关系和活动可以用图来表示,如图13-2所示。其中,每个结点(小方框)表示一个参与者,每条线的连接表示两个参与者之间的关系。鉴于互联网就是一个虚拟的社会环境,每个网页可以看做是一个参与者,每个链接可以看做是一种关系,因此社会网络分析的很多方法和技术都可以很自然地延伸和应用到互联网的分析中。

00138.jpeg

图 13-2 社会网络分析原理简图

在社会网络分析方法中,最常见最成熟的一种方法就是中心性分析方法(Centrality),中心性是对于社会关系网中参与者的著名程度进行度量的标准,它与网络搜索和超链接分析有非常紧密的关系。

所谓中心性,是指某个个体在社会(网络)中的重要性。中心性程度高的个体,就是那些广泛与其他参与者连接或者发生关系的参与者。在一个单位或一个团体中,与其他同事有广泛交流或联系的人,其重要程度要高于那些与其他同事联系较少的人,也就是前者的中心性程度高于后者的中心性程度。

关于社会网络分析方法的深入介绍和探讨,有兴趣的读者可以参考S.Wasserman和K.Raust的专著《Social Network Analysis》。

13.5.2 基于序列的关联分析

基于序列的关联分析(Sequence Analysis)又称序列分析,这种分析方法是在关联分析(Association Analysis)的基础上,进一步考虑了关联品之间的先后顺序,即只分析先后顺序中的关联关系。

本书2.3.4节专门讲解了关联规则,即关联分析,其中举例说明了在所有顾客中,有10%的顾客购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,有70%的人还购买了啤酒。将这个例子称为关联分析,是因为其中并没有考虑到啤酒和尿布购买的先后顺序,可能有的顾客先买啤酒,然后再买尿布;也有的顾客先买尿布,然后再买啤酒。无论先后顺序如何,他们都是符合关联分析数据要求的。而所谓的序列分析,是要考虑两者的先后顺序的,要么关注先购买尿布,后购买啤酒的关联关系;要么关注先购买啤酒,后购买尿布的关联关系。从这个简单的例子可以看出,序列分析是基于关联分析的,只是增加了考虑问题的维度,即事物的先后顺序,但是其分析过程和计算过程是基本一致的。

本书3.11.2节给出了有关关联分析的详细分析算法,有兴趣的读者可以进行参考。

对于序列分析,因为考虑了事物关联关系的先后顺序,所以与互联网中网页流转的先后顺序分析有很大的相似性,可以加以借鉴,它也成为网络路径分析中的一种重要分析方法。

13.5.3 最朴素的遍历方法

之所以称这类方法最朴素,是因为它最直观、最直接、最容易让人理解。根据遍历的思想,把某个页面(或某类页面)的所有来源以及相应的流量大小整理出来,同时把浏览该页面(或该类页面)后的下一个页面的所有去向和相应的流量整理出来,就是一个常见的、通过典型的遍历方法进行的路径分析。在企业的数据化运营实践中,根据具体的业务场景,基于遍历方法的路径分析可以有不同的表现形式,比如来源去向分析、主要路径分析等,如图13-3和图13-4所示,因考虑到企业商业隐私,对各图片中的大部分数据做了处理。

图13-3所示的是某页面的来源去向分析:针对代号为F291的行业频道页面,在某个分析时段,有53.15%的UV是用户直接打开或者未知来源,有*%的UV是用户来自百度;在浏览了代号为F291的行业频道页面后,有32.43%的用户直接离开等。

00139.jpeg

图 13-3 某页面的来源去向分析

图13-4所示的是对某页面的用户的主要路径分析方法,从中可以看出,浏览了代号B281,即“供应搜索”页面的用户,有%会进入普通供应页面,有%会进入P4P普通页面等信息。

00140.jpeg

图 13-4 某页面的用户主要路径分析

图13-5是Google Analysis(GA)提供的一个用户路径分析显示,其基本思路还是遍历的思路。GA是google公司推出的一个网站分析工具,关于GA的详细信息,可以登录网址:http://www.google.com/analytics/进行查阅。

00141.jpeg

图 13-5 GA工具所分析的某网站用户路径分析图