统计学真的有那么可怕吗？这儿有可以手算的效能分析

返回电脑百科

最后更新：2020-05-15 11:30:32 手机定位技术交流文章

全文由1660个单词组成，预计持续7分钟。

资料来源:unsplash

事实上，统计确实可以被视为一个可怕的主题。然而，统计不一定那么难学。本文试图说明掌握统计工具可以让统计不那么可怕。

那么，让我们从计算A/B测试(性能测试)的样本量开始。在阅读本文之前，最好先熟悉抽样分布的概念和比例标准误差的计算方法。

1.设计A/B测试

让我们假设我们使用一个/B测试来决定是否采用新的主页设计。目前的主页平均每天有200名独立访问者和5%的点击率。预计新主页的点击率至少为7%。我们将50%的流量分配给两个变量:

这个测试需要多少天？

2.如果测试持续7天会发生什么？

假设甲乙测试只持续7天，测试后每组有700名访客。接下来，计算零假设(总体点击率没有差异)和替代假设(总体点击率的实际差异)的样本分布。

步骤1:计算现有的样本比率P

第二步:用P计算标准误差

步骤3:计算样本分布

H0(零假设):正态分布，平均值0，标准差0.013。

假设:正态分布，平均值0.02，标准差0.013。

分布图如下:

在显著性水平为0.05()时，临界值为0.0249。这意味着:

1.如果样本CTR的绝对差值大于0.0249，则拒绝零假设(H0)。

如果H0是真的，那么拒绝零假设的决定是错误的(第一类错误)，这种情况的概率是5%。

如果医管局是真的，那么拒绝H0的决定是正确的。这种情况的概率是35%()，这也称为测试效率。

2.如果样本CTR的绝对差值小于或等于0.0249，则不能拒绝零假设(H0)。

如果H0是真的，不拒绝零假设的决定是正确的，并且这种情况的概率是95%()。

如果高可用性为真，不拒绝零假设的决定是错误的(第二类错误)。这种情况发生的概率是65%。

摘要:

A/B测试仅持续7天，因此实验组有65%的可能性检测不到CTR。这个错误率太高了！一般来说，我们希望将错误率降低到20%，这相当于效率的80%。我们可以通过增加样本量来实现这个目标。

3.手动计算80%性能所需的样本量

如果测试要达到80%的效率，需要多大的样本量？

零假设的样本分布被转换成标准正态分布，这使得计算过程更加直观:

在显著性水平为0.05时，临界值约为1.96，这是通过查找临界值表获得的。

如果考虑替代假设的样本分布，那么我们希望曲线下-1.96和1.96之间的区域占20%(效率为80%)。因此，阈值必须与平均值相差约0.84(该值也可以在比较表中找到)。

因此，归一化平均差值必须为1.96+0.84=2.8

使用图表可能更容易理解:

真正的平均差是0.02，所以归一化的平均差等于0.02/se。我们可以建立一个方程来求解样本大小n:

因此，每组需要2211次观察。当每组每天有100个独立的访问者时，测试至少需要23天才能得到80%效率的实验结果。

4.r统计分析

在这里，我们已经非常熟悉样本量计算的整体框架(性能分析)。接下来，让我们看看如何将以上所有步骤简化成几行代码。在r中输入以下代码:

#输入输入p1 & lt- 0.05 n1 <。- 700 p2 <。- 0.07 n2 <。- 700马力。- 0.8 x1 <。- p1*n1 x2 <。- p2*n2打印(‘绝对差值(测试-控制)’)δlt；- abs(pp2) delta print(“汇总样本比例”)汇总。p <。- (p1 * n1 + p2 * n2 ) / (n1 + n2)合并。p打印(“se”)se & lt。-sqrt(p *(p)*((1/n1)+(1/N2)))se print(“请求功率的标准化距离”)st.dist <。-q norm(p = 幂，均值= 0，sd = 1) + qnorm(p = 0.975，均值= 0，SD = 1)ST . dist print(' solve for n ')n & lt。(( st.dist)/delta)^2*pooled.p*(pooled.p)*2 n

你会得到:

评论、表扬和关注

让我们分享人工智能学习和发展的干货。

如果重印，请在后台留言并遵守重印规则。

本文由在线网速测试整理编辑，转载请注明出处。

统计学真的有那么可怕吗？这儿有可以手算的效能分析

热门文章

文章分类