统计学真的有那么可怕吗?这儿有可以手算的效能分析

      最后更新:2020-05-15 11:30:32 手机定位技术交流文章

      全文由1660个单词组成,预计持续7分钟。

      资料来源:unsplash

      事实上,统计确实可以被视为一个可怕的主题。然而,统计不一定那么难学。本文试图说明掌握统计工具可以让统计不那么可怕。

      那么,让我们从计算A/B测试(性能测试)的样本量开始。在阅读本文之前,最好先熟悉抽样分布的概念和比例标准误差的计算方法。

      1.设计A/B测试

      让我们假设我们使用一个/B测试来决定是否采用新的主页设计。目前的主页平均每天有200名独立访问者和5%的点击率。预计新主页的点击率至少为7%。我们将50%的流量分配给两个变量:

      这个测试需要多少天?

      2.如果测试持续7天会发生什么?

      假设甲乙测试只持续7天,测试后每组有700名访客。接下来,计算零假设(总体点击率没有差异)和替代假设(总体点击率的实际差异)的样本分布。

      步骤1:计算现有的样本比率P

      第二步:用P计算标准误差

      步骤3:计算样本分布

      H0(零假设):正态分布,平均值0,标准差0.013。

      假设:正态分布,平均值0.02,标准差0.013。

      分布图如下:

      在显著性水平为0.05()时,临界值为0.0249。这意味着:

      1.如果样本CTR的绝对差值大于0.0249,则拒绝零假设(H0)。

      如果H0是真的,那么拒绝零假设的决定是错误的(第一类错误),这种情况的概率是5%。

      如果医管局是真的,那么拒绝H0的决定是正确的。这种情况的概率是35%(),这也称为测试效率。

      2.如果样本CTR的绝对差值小于或等于0.0249,则不能拒绝零假设(H0)。

      如果H0是真的,不拒绝零假设的决定是正确的,并且这种情况的概率是95%()。

      如果高可用性为真,不拒绝零假设的决定是错误的(第二类错误)。这种情况发生的概率是65%。

      摘要:

      A/B测试仅持续7天,因此实验组有65%的可能性检测不到CTR。这个错误率太高了!一般来说,我们希望将错误率降低到20%,这相当于效率的80%。我们可以通过增加样本量来实现这个目标。

      3.手动计算80%性能所需的样本量

      如果测试要达到80%的效率,需要多大的样本量?

      零假设的样本分布被转换成标准正态分布,这使得计算过程更加直观:

      在显著性水平为0.05时,临界值约为1.96,这是通过查找临界值表获得的。

      如果考虑替代假设的样本分布,那么我们希望曲线下-1.96和1.96之间的区域占20%(效率为80%)。因此,阈值必须与平均值相差约0.84(该值也可以在比较表中找到)。

      因此,归一化平均差值必须为1.96+0.84=2.8

      使用图表可能更容易理解:

      真正的平均差是0.02,所以归一化的平均差等于0.02/se。我们可以建立一个方程来求解样本大小n:

      因此,每组需要2211次观察。当每组每天有100个独立的访问者时,测试至少需要23天才能得到80%效率的实验结果。

      4.r统计分析

      在这里,我们已经非常熟悉样本量计算的整体框架(性能分析)。接下来,让我们看看如何将以上所有步骤简化成几行代码。在r中输入以下代码:

      #输入输入p1 & lt- 0.05 n1 <。- 700 p2 <。- 0.07 n2 <。- 700马力。- 0.8 x1 <。- p1*n1 x2 <。- p2*n2打印(‘绝对差值(测试-控制)’)δlt;- abs(pp2) delta print(“汇总样本比例”)汇总。p <。- (p1 * n1 + p2 * n2 ) / (n1 + n2)合并。p打印(“se”)se & lt。-sqrt(p *(p)*((1/n1)+(1/N2)))se print(“请求功率的标准化距离”)st.dist <。-q norm(p = 幂,均值= 0,sd = 1) + qnorm(p = 0.975,均值= 0,SD = 1)ST . dist print(' solve for n ')n & lt。(( st.dist)/delta)^2*pooled.p*(pooled.p)*2 n

      你会得到:

      评论、表扬和关注

      让我们分享人工智能学习和发展的干货。

      如果重印,请在后台留言并遵守重印规则。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/6674.html

          热门文章

          文章分类