理解Google Analytics的报告采样

5.3 理解报告采样 -《流量的秘密》

报告采样常用于大访问量的网站，使用采样报告的目的是优化数据查询和减少报告生成的延迟。

从本质上讲，如果Google Analytics分析报告以采样模式呈现，它只会检查收集到的数据的一部分，并根据这部分数据进行运算。然后Google Analytics会根据这些数据备份自动缩放从而显示生成的报告。例如，如果仅有10%的实际数据作为样本进行计算，则访问数和综合浏览量等指标均乘以10并在生成的报告中呈现。这是在处理大量数据时常用的一个标准统计方法，使用小部分有代表性的数据子集估算总体数值。

注：作为一个经验法则，如果你的网站每月访问次数少于10万，你不太可能会遇到报告采样。

需要注意的是报告采样与数据收集采样是不同的，我们在第7章“自定义GATC”中将作详细说明。数据收集采样决定了有多少数据会被发送到Google Analytics，这是在你的控制之下的。报告采样的情况则会在超过一定限额的数据生成报表时自动发生。

你的数据会自动采样与否，这个得依据具体报告而定。归根结底，这主要取决于报告请求处理的数据量，而这与你选择的时间范围与报告类型相关。例如，Google Analytics里的标准报告部分（参阅第四章图4.3和图4.4）所提供的系列报告是基于未采样的预聚合数据表生成的。使用预聚合数据就可以满足需求的报告则不会采样。

然而，请求的报告可能需要自定义数据集，如可能需要使用高级细分、次级维度、或自定义报告对数据集作自定义。在这些情况下，在同一个时间段里如果请求的数据来自的网络媒体资源访问数超过50万，将会发生报告数据采样。

每次访问采样

每次访问采样的发生是基于网络媒体资源的级别的。也就是说，谷歌每天为一个特定的网络媒体资源选择随机的访问数样本。在第4章图4.1说明了网络媒体资源与配置文件的关系。更多关于报告采样的标准可以查看以下文档：

http://code.google.com/apis/analytics/docs/concepts/gaConceptsSampling.html

为了说明这一点，假设你正在查看的着陆页面的报告（内容 > 网站内容 > 目标页面），报表中访问总次数为9万，且把“媒介”设置为次级维度。为什么这样一个相对较小的数据集也会进行采样？

在这种情况下，你请求的自定义数据集不能从未采样的预聚合的报告中获得。因此，为了得到自定义的数据集，系统需要向原始数据发出请求。如果该网络媒体资源在选定的时间段内总访问数超过50万，则会发生采样。请注意我在刻意强调网络媒体资源，即使你有一个配置文件配置了过滤器排除了大部分流量，但采样仍会发生，因为采样发生在网络媒体资源级别。

为了表明报告是由采样数据生成，Google Analytics会在屏幕上方显示一个黄色的提醒框提示：“此报告基于 246633 次访问（占访问次数的 33.19%）。 ”，如图5.35所示（译者注：上边的提示说明用的是GA最新版的设置，和前期的版本有所不同，前期的提示为：This report is generated in fast-access mode。默认设置的采样访问数据样本为25万，可以通过滑块选项设置取样灵敏度，最高样本数据为50万）。这个提示则意味着数据已使用了采样。

图5.35 用户界面的报告采样提示

报告采样是一个成功的标志，这意味着你的网站有如此多的访客以致为他们的行为生成报告的过程都变得如此耗时和资源紧张。然而，通过一种合理的方式构建数据，可以有效地减少采样的出现。例如，你可以考虑把你的数据分散在不同的Google Analytics网络媒体资源甚至多个Google Analytics帐户中，而不是把所有数据都整合到一起。如何使用额外的Google Analytics帐户将在第6章的“汇总报告”中作讨论。

注： Google Analytics（分析）的付费版本Google Analytics Premium允许你下载未采样的CSV格式的报告。但在用户界面上，报告仍会以相同的采样标准生成，以保证报告的快速加载；超过50万的自定义数据请求无法通过预聚合的数据来生成报告。Google Analytics Premium在第三章中有相关描述。

理解Google Analytics的报告采样

5.3 理解报告采样 -《流量的秘密》

发表评论取消回复

AnalyticsKey

5.3 理解报告采样 -《流量的秘密》

发表评论 取消回复

AnalyticsKey

发表评论取消回复