A/B 测试设置

设计产生统计有效、可执行结果的测试。

前置了解

测试上下文（试图改进什么、考虑什么变更、为何想测试这个）；当前状态（基线转化率、当前流量、任何历史测试数据）；约束（技术实施复杂度、时间线要求、可用工具）。

原则

从假设开始：非仅「看看会发生什么」，具体结果预测，基于推理或数据。
一次测试一件事：每测试单变量，否则不知道什么有效，MVT 留到后面。
统计严谨：预先确定样本量，不偷看并提前停止，承诺方法论。
度量重要的：与业务价值相关的主指标、用于上下文的次指标、防止伤害的护栏指标。

假设框架

结构：因为 [观察/数据]，我们相信 [变更] 会对 [受众] 导致 [预期结果]。当 [指标] 时我们知道这是真的。
好假设包括：观察（什么促成了这个想法）、变更（具体修改）、效果（预期结果与方向）、受众（适用于谁）、指标（如何度量成功）。

测试类型

A/B 测试（分割测试）：两个版本：对照（A）vs 变体（B），版本间单一变更，最常见、最易分析。
A/B/n 测试：多个变体（A vs B vs C...），需更多流量，适合测试多个选项。
多变量测试（MVT）：组合中的多个变更，测试变更间交互，需显著更多流量，复杂分析。
分割 URL 测试：变体不同 URL，适合主要页面变更，有时更易实施。

样本量计算

需要输入：基线转化率、最小可检测效应（MDE）、统计显著性水平（通常 95%）、统计功效（通常 80%）。
快速参考：基线 1% 时，10% 提升需 150k/变体，20% 需 39k，50% 需 6k；基线 5% 时，10% 需 27k，20% 需 7k，50% 需 1.2k。
测试时长：时长 = (每变体所需样本量 × 变体数) / (测试页每日流量 × 转化率)。最小：1-2 个业务周期（通常 1-2 周），最大：避免运行太久（新颖效应、外部因素）。

指标选择

主指标：单一最重要指标，直接与假设相关，用于判断测试。
次指标：支持主指标解释、解释变更如何/为何有效、帮助理解用户行为。
护栏指标：不应变差的事项（收入、留存、满意度），如显著负面则停止测试。
按测试类型的指标示例：首页 CTA 测试（主=CTA 点击率，次=点击时间/滚动深度，护栏=跳出率/下游转化）；定价页测试（主=计划选择率，次=页面停留时间/计划分布，护栏=支持工单/退款率）；注册流程测试（主=注册完成率，次=字段级完成/完成时间，护栏=用户激活率）。

设计变体

对照（A）：当前体验，不变，测试期间不修改。
变体（B+）：单一、有意义的变更、足够大胆以产生差异、忠于假设。
可变化内容：标题/文案（信息角度、价值主张、具体性水平、语调/声音）、视觉设计（布局结构、颜色与对比、图片选择、视觉层级）、CTA（按钮文案、大小/突出度、位置、CTA 数量）、内容（包含的信息、信息顺序、内容量、社会证明类型）。

流量分配

标准分割：A/B 测试 50/50，多个变体等分。
保守推出：初始 90/10 或 80/20，限制坏变体风险，达到显著性需更长时间。
逐步增加：从小开始，随时间增加，适合技术风险缓解，大多数工具支持。
考虑：一致性（用户返回时看到相同变体）、细分大小（确保细分足够大）、时间（天/周：平衡曝光）。

实施方法

客户端测试：工具如 PostHog、Optimizely、VWO、自定义；JavaScript 在加载后修改页面，快速实施，可能闪烁；适合营销页、文案/视觉变更、快速迭代。
服务端测试：工具如 PostHog、LaunchDarkly、Split、自定义；变体在页面渲染前确定，无闪烁，需开发工作；适合产品功能、复杂变更、性能敏感页面。
功能标志：二进制开/关（非真正 A/B），适合推出，可通过百分比分割转为 A/B。

运行测试

启动前清单：假设已记录、主指标已定义、样本量已计算、测试时长已估算、变体已正确实施、追踪已验证、所有变体 QA 已完成、利益相关者已通知。
测试期间：监控技术问题、检查细分质量、记录任何外部因素；不要：偷看结果并提前停止、修改变体、从新来源添加流量、因为「知道」答案而提前结束。
偷看问题：在达到样本量前查看结果并在看到显著性时停止导致：假阳性、膨胀效应大小、错误决策。解决方案：预先承诺样本量并坚持、如必须偷看使用序贯测试、信任流程。

分析结果

统计显著性：95% 置信度 = p 值 < 0.05，意味着<5% 结果是随机的，非保证—仅阈值。
实际显著性：统计 ≠ 实际，效应大小对业务是否有意义？是否值得实施成本？是否可持续？
查看内容：1) 是否达到样本量？2) 是否统计显著？3) 效应大小是否有意义？4) 次指标是否一致？5) 是否有护栏担忧？6) 是否有细分差异？
解释结果：显著获胜者→实施变体；显著失败者→保留对照，学习原因；无显著差异→需更多流量或更大胆测试；混合信号→深入挖掘，可能细分。

文档与学习

测试文档：测试名称、ID、日期、所有者、假设、变体（对照与变体描述+截图）、结果（样本量、主指标、次指标、细分洞察）、决策（获胜者/失败者/不确定）、行动（正在做什么）、学习（学到了什么、下一步测试什么）。
建立学习库：所有测试的中央位置、可按页面/元素/结果搜索、防止重新运行失败测试、建立机构知识。

常见错误

测试设计：测试变更太小（不可检测）、测试太多（无法隔离）、无清晰假设、错误受众。
执行：提前停止、测试期间修改、不检查实施、流量分配不均。
分析：忽略置信区间、挑选细分、过度解释不确定结果、不考虑实际显著性。

ab-test-setup

Safety Notice

Copy this and send it to your AI assistant to learn