ab-test-setup

规划、设计或实施 A/B 测试或实验时使用。触发词:A/B test、split test、experiment、test this change、variant copy、multivariate test、hypothesis。追踪实施见 analytics-tracking。

Safety Notice

This listing is imported from skills.sh public index metadata. Review upstream SKILL.md and repository scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "ab-test-setup" with this command: npx skills add kunhai-88/skills/kunhai-88-skills-ab-test-setup

A/B 测试设置

设计产生统计有效、可执行结果的测试。

前置了解

测试上下文(试图改进什么、考虑什么变更、为何想测试这个);当前状态(基线转化率、当前流量、任何历史测试数据);约束(技术实施复杂度、时间线要求、可用工具)。

原则

  • 从假设开始:非仅「看看会发生什么」,具体结果预测,基于推理或数据。
  • 一次测试一件事:每测试单变量,否则不知道什么有效,MVT 留到后面。
  • 统计严谨:预先确定样本量,不偷看并提前停止,承诺方法论。
  • 度量重要的:与业务价值相关的主指标、用于上下文的次指标、防止伤害的护栏指标。

假设框架

结构:因为 [观察/数据],我们相信 [变更] 会对 [受众] 导致 [预期结果]。当 [指标] 时我们知道这是真的。
好假设包括:观察(什么促成了这个想法)、变更(具体修改)、效果(预期结果与方向)、受众(适用于谁)、指标(如何度量成功)。

测试类型

A/B 测试(分割测试):两个版本:对照(A)vs 变体(B),版本间单一变更,最常见、最易分析。
A/B/n 测试:多个变体(A vs B vs C...),需更多流量,适合测试多个选项。
多变量测试(MVT):组合中的多个变更,测试变更间交互,需显著更多流量,复杂分析。
分割 URL 测试:变体不同 URL,适合主要页面变更,有时更易实施。

样本量计算

需要输入:基线转化率、最小可检测效应(MDE)、统计显著性水平(通常 95%)、统计功效(通常 80%)。
快速参考:基线 1% 时,10% 提升需 150k/变体,20% 需 39k,50% 需 6k;基线 5% 时,10% 需 27k,20% 需 7k,50% 需 1.2k。
测试时长:时长 = (每变体所需样本量 × 变体数) / (测试页每日流量 × 转化率)。最小:1-2 个业务周期(通常 1-2 周),最大:避免运行太久(新颖效应、外部因素)。

指标选择

主指标:单一最重要指标,直接与假设相关,用于判断测试。
次指标:支持主指标解释、解释变更如何/为何有效、帮助理解用户行为。
护栏指标:不应变差的事项(收入、留存、满意度),如显著负面则停止测试。
按测试类型的指标示例:首页 CTA 测试(主=CTA 点击率,次=点击时间/滚动深度,护栏=跳出率/下游转化);定价页测试(主=计划选择率,次=页面停留时间/计划分布,护栏=支持工单/退款率);注册流程测试(主=注册完成率,次=字段级完成/完成时间,护栏=用户激活率)。

设计变体

对照(A):当前体验,不变,测试期间不修改。
变体(B+):单一、有意义的变更、足够大胆以产生差异、忠于假设。
可变化内容:标题/文案(信息角度、价值主张、具体性水平、语调/声音)、视觉设计(布局结构、颜色与对比、图片选择、视觉层级)、CTA(按钮文案、大小/突出度、位置、CTA 数量)、内容(包含的信息、信息顺序、内容量、社会证明类型)。

流量分配

标准分割:A/B 测试 50/50,多个变体等分。
保守推出:初始 90/10 或 80/20,限制坏变体风险,达到显著性需更长时间。
逐步增加:从小开始,随时间增加,适合技术风险缓解,大多数工具支持。
考虑:一致性(用户返回时看到相同变体)、细分大小(确保细分足够大)、时间(天/周:平衡曝光)。

实施方法

客户端测试:工具如 PostHog、Optimizely、VWO、自定义;JavaScript 在加载后修改页面,快速实施,可能闪烁;适合营销页、文案/视觉变更、快速迭代。
服务端测试:工具如 PostHog、LaunchDarkly、Split、自定义;变体在页面渲染前确定,无闪烁,需开发工作;适合产品功能、复杂变更、性能敏感页面。
功能标志:二进制开/关(非真正 A/B),适合推出,可通过百分比分割转为 A/B。

运行测试

启动前清单:假设已记录、主指标已定义、样本量已计算、测试时长已估算、变体已正确实施、追踪已验证、所有变体 QA 已完成、利益相关者已通知。
测试期间:监控技术问题、检查细分质量、记录任何外部因素;不要:偷看结果并提前停止、修改变体、从新来源添加流量、因为「知道」答案而提前结束。
偷看问题:在达到样本量前查看结果并在看到显著性时停止导致:假阳性、膨胀效应大小、错误决策。解决方案:预先承诺样本量并坚持、如必须偷看使用序贯测试、信任流程。

分析结果

统计显著性:95% 置信度 = p 值 < 0.05,意味着<5% 结果是随机的,非保证—仅阈值。
实际显著性:统计 ≠ 实际,效应大小对业务是否有意义?是否值得实施成本?是否可持续?
查看内容:1) 是否达到样本量?2) 是否统计显著?3) 效应大小是否有意义?4) 次指标是否一致?5) 是否有护栏担忧?6) 是否有细分差异?
解释结果:显著获胜者→实施变体;显著失败者→保留对照,学习原因;无显著差异→需更多流量或更大胆测试;混合信号→深入挖掘,可能细分。

文档与学习

测试文档:测试名称、ID、日期、所有者、假设、变体(对照与变体描述+截图)、结果(样本量、主指标、次指标、细分洞察)、决策(获胜者/失败者/不确定)、行动(正在做什么)、学习(学到了什么、下一步测试什么)。
建立学习库:所有测试的中央位置、可按页面/元素/结果搜索、防止重新运行失败测试、建立机构知识。

常见错误

测试设计:测试变更太小(不可检测)、测试太多(无法隔离)、无清晰假设、错误受众。
执行:提前停止、测试期间修改、不检查实施、流量分配不均。
分析:忽略置信区间、挑选细分、过度解释不确定结果、不考虑实际显著性。

相关技能

page-cro、analytics-tracking、copywriting。

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

marketing-psychology

No summary provided by upstream source.

Repository SourceNeeds Review
General

marketing-ideas

No summary provided by upstream source.

Repository SourceNeeds Review
General

ab-test-setup

No summary provided by upstream source.

Repository SourceNeeds Review
General

supabase-postgres-best-practices

No summary provided by upstream source.

Repository SourceNeeds Review