13.1 网络日志和布点[1]

互联网与传统行业在数据上有一个很重要的不同点,即互联网具有相关的日志体系。用户在网上进行浏览时的每一步都会被记录下来,从而形成了海量的日志数据。

互联网日志的数据体系分为日志布点、日志采集、日志解析和日志分析4个部分。下面分别进行简单的介绍。

13.1.1 日志布点

日志布点是指在页面上安排记录关键用户行为的一段小程序,用户按照预设规则对网页进行访问的时候,布点的规则程序就会将用户相关的数据发送到一个指定的服务器,从而达到日志采集的目的。根据采集数据的目的不同,日志布点主要可以分为以下3类(鉴于在互联网各公司中日志布点有不同的名称,在此以中文含义进行解析):

❑页面级布点。页面级布点的应用范围最广,也是所有日志分析的基础,对于一个成熟的网站来说,该类布点会覆盖网站的所有页面。其内容通常包括:IP地址、用户名、Cookie相关信息及浏览器类型等。

❑点击级布点。这类日志布点通常会在用户点击某个链接、按钮、筛选框等特定事件时被触发。其所记录的内容和页面级布点相比也稍微有些不同,该布点会更加关注点击按钮的区域、点击的方式等。

❑追踪日志布点。当某一个特定的页面有很多来源时,为了清楚地区分不同的来源,就需要用到追踪日志布点。举例来说,到达订购页面的用户,可以有多个来源,有的是来自首页上方的订购链接,有的是即时通信浮起所带来的,有的来自另外一个专题运营页面等,所有这些不同来源的用户都到达了同一个订购页面,在这种情况下,追踪日志布点就可以发挥作用了,它可以有效区分不同来源的明细。

[1]本节内容由阿里巴巴B2B的数据仓库专家蒿亮编写,蒿亮的微博地址为:http://weibo.com/airjam,E-mail:[email protected]

13.1.2 日志采集

进行日志采集时通常会设定专门的日志采集服务器,主要目的是大流量多线程地将日志记录下来。

13.1.3 日志解析

由于日志数据是不同于通常数据源的非结构化数据,其主要目的是提高读写效率,因此日志解析的目的就是将非结构化数据转化成为结构化数据。

13.1.4 日志分析

日志分析的主要内容包括日常流量监控(PV,UV)、来源去向分析及路径分析等。

本章接下来要具体讨论的,就是针对日志数据进行的路径分析,其包括来源去向分析,当然其中的原理也会用于日常流量监控中。