最后更新:2020-05-15 11:30:32 手机定位技术交流文章
全文由1660个单词组成,预计持续7分钟。

资料来源:unsplash
事实上,统计确实可以被视为一个可怕的主题。然而,统计不一定那么难学。本文试图说明掌握统计工具可以让统计不那么可怕。
那么,让我们从计算A/B测试(性能测试)的样本量开始。在阅读本文之前,最好先熟悉抽样分布的概念和比例标准误差的计算方法。


1.设计A/B测试
让我们假设我们使用一个/B测试来决定是否采用新的主页设计。目前的主页平均每天有200名独立访问者和5%的点击率。预计新主页的点击率至少为7%。我们将50%的流量分配给两个变量:

这个测试需要多少天?

2.如果测试持续7天会发生什么?
假设甲乙测试只持续7天,测试后每组有700名访客。接下来,计算零假设(总体点击率没有差异)和替代假设(总体点击率的实际差异)的样本分布。
步骤1:计算现有的样本比率P

第二步:用P计算标准误差

步骤3:计算样本分布
H0(零假设):正态分布,平均值0,标准差0.013。
假设:正态分布,平均值0.02,标准差0.013。
分布图如下:

在显著性水平为0.05()时,临界值为0.0249。这意味着:
1.如果样本CTR的绝对差值大于0.0249,则拒绝零假设(H0)。
如果H0是真的,那么拒绝零假设的决定是错误的(第一类错误),这种情况的概率是5%。
如果医管局是真的,那么拒绝H0的决定是正确的。这种情况的概率是35%(),这也称为测试效率。
2.如果样本CTR的绝对差值小于或等于0.0249,则不能拒绝零假设(H0)。
如果H0是真的,不拒绝零假设的决定是正确的,并且这种情况的概率是95%()。
如果高可用性为真,不拒绝零假设的决定是错误的(第二类错误)。这种情况发生的概率是65%。
摘要:

A/B测试仅持续7天,因此实验组有65%的可能性检测不到CTR。这个错误率太高了!一般来说,我们希望将错误率降低到20%,这相当于效率的80%。我们可以通过增加样本量来实现这个目标。

3.手动计算80%性能所需的样本量
如果测试要达到80%的效率,需要多大的样本量?
零假设的样本分布被转换成标准正态分布,这使得计算过程更加直观:
在显著性水平为0.05时,临界值约为1.96,这是通过查找临界值表获得的。
如果考虑替代假设的样本分布,那么我们希望曲线下-1.96和1.96之间的区域占20%(效率为80%)。因此,阈值必须与平均值相差约0.84(该值也可以在比较表中找到)。
因此,归一化平均差值必须为1.96+0.84=2.8
使用图表可能更容易理解:

真正的平均差是0.02,所以归一化的平均差等于0.02/se。我们可以建立一个方程来求解样本大小n:

因此,每组需要2211次观察。当每组每天有100个独立的访问者时,测试至少需要23天才能得到80%效率的实验结果。

4.r统计分析
在这里,我们已经非常熟悉样本量计算的整体框架(性能分析)。接下来,让我们看看如何将以上所有步骤简化成几行代码。在r中输入以下代码:
#输入输入p1 & lt- 0.05 n1 <。- 700 p2 <。- 0.07 n2 <。- 700马力。- 0.8 x1 <。- p1*n1 x2 <。- p2*n2打印(‘绝对差值(测试-控制)’)δlt;- abs(pp2) delta print(“汇总样本比例”)汇总。p <。- (p1 * n1 + p2 * n2 ) / (n1 + n2)合并。p打印(“se”)se & lt。-sqrt(p *(p)*((1/n1)+(1/N2)))se print(“请求功率的标准化距离”)st.dist <。-q norm(p = 幂,均值= 0,sd = 1) + qnorm(p = 0.975,均值= 0,SD = 1)ST . dist print(' solve for n ')n & lt。(( st.dist)/delta)^2*pooled.p*(pooled.p)*2 n
你会得到:
评论、表扬和关注
让我们分享人工智能学习和发展的干货。
如果重印,请在后台留言并遵守重印规则。
本文由 在线网速测试 整理编辑,转载请注明出处。