NETA BI | AB 实验复核 | 2026-03-31

spu_26_0317_2 AB 实验有效性复核

目标是回答一个非常具体的问题:在 2026 年清明假期前,这个首充策略能不能直接全量上线。

实验 ID: 31
实验 Key: spu_26_0317_2
实验名: 商城首充双倍实验优化迭代03172
对象: 7天内新用户
有效分析窗: 2026-03-23 ~ 2026-03-30
不建议在清明假期前直接全量上线
按你修正后的有效实验窗,只看 2026-03-23 之后,exp 没有展现稳定的转化优势。整体 D3 付费转化低于 default,D7 只剩很弱的小样本信号且完全不显著,关键节前 cohort 到周末结束的付费转化也仍低于 default。

整体 D7 付费转化

3.50%
default 3.23% | 0.27pp | p=0.838

整体 D3 付费转化

3.40%
default 4.04% | -0.64pp | p=0.280

关键周末结束转化

3.45%
default 4.09% | -0.64pp | p=0.281

用户映射覆盖率

100%
AB 分桶到 user 主键的映射完整,无口径缺失

一句话结论

  • 只看 2026-03-23 之后的有效窗,整体 D3 付费转化是 default 4.04%、exp 3.40%,exp 反而低了 -0.64pp,p=0.280。
  • 有效窗里的 D7 付费转化仅覆盖 2026-03-23 单日入桶 cohort,default 3.23%、exp 3.50%,差值 0.27pp,但 p=0.838,不足以支撑上线决策。
  • 2026-03-23 至 2026-03-27 的工作日窗口里,exp 的付费用户数 72 低于 default 的 79,但收入 868.10 高于 default 的 351.70,说明增益主要来自高客单而不是更广的转化。
  • 2026-03-28 至 2026-03-29 周末窗口里,exp 付费用户数 61 低于 default 的 87,收入 526.60 也低于 default 的 669.10。
  • 对 2026-03-23 至 2026-03-27 入桶 cohort 看,到周末结束 default 付费转化 4.09%,exp 只有 3.45%,p=0.281;这不支持“exp 只是把同一批高意愿用户提前释放掉”的解释。
  • 商品结构上,exp 工作日收入高度集中在高价商品,如“无限捏图披萨包”“19800电量”“2400电量”“全能无限电量24小时”;default 的贡献更分散且更多来自低价首充福利商品。
  • 放回全站看,2026-02-23 至 2026-03-30 周末日均付费用户约 573,工作日约 419;而实验样本只占全站日付费用户平均 10.64%,所以短周期波动会被放大。

查询定义

  • 对象:命中 `spu_26_0317_2` 实验的新用户及其付费订单
  • 指标:付费用户数、完成订单数、收入、D1/D3/D7 付费转化、商品结构
  • 时间:仅看有效实验窗 2026-03-23 至 2026-03-30
  • 排除:内部用户、机器人用户、入桶前订单

需求背景

背景项说明
需求来源2026-03-31 飞书群“推荐BI数据分析”中的原始需求。
业务问题团队想判断这个新用户首充双倍策略,是否能在清明假期前安全全量上线。
原始担忧群内原文是:上周一到周五 exp 数据很好,但周末 exp 低于 default,怀疑高意愿付费用户已在工作日提前释放。
决策约束业务侧希望在清明期间全量上线该策略,但需求提出方明确表示“还是存疑”,因此需要做一次能支撑上线决策的复核。
实验对象仅覆盖 7 天内新用户;default 是原首充策略,exp 是首充双倍优化策略。
口径修正用户补充说明 2026-03-23 之前实验数据有问题,因此最终结论只基于 2026-03-23 至 2026-03-30。
为什么重点看周末清明假期流量结构更接近周末,因此 2026-03-28 至 2026-03-29 的表现比更早的工作日更接近真实上线风险。

关键指标摘要

维度defaultexp结论
整体 D3 付费转化4.04%3.40%exp -0.64pp,p=0.280
整体 D7 付费转化3.23%3.50%exp 0.27pp,p=0.838
2026-03-23~27 工作日收入351.70868.10exp 146.8%
2026-03-28~29 周末收入669.10526.60exp -21.3%
关键 cohort 到周末结束转化4.09%3.45%exp -0.64pp,p=0.281

长期波动背景

为了避免把短期反转误判成策略失效,这里补了 2026-02-23 至 2026-03-30 的全站商业化基线。结论是:周末原本就比工作日更高流量、更高付费;而这个实验样本只占全站一小部分,所以节前判断必须更保守。

维度工作日周末
全站日均付费用户(2026-02-23~2026-03-30)419573
全站日均收入(2026-02-23~2026-03-30)5,174.756,484.91
实验样本占全站付费用户平均 10.64%区间 7.12% ~ 15.02%
实验样本占全站收入平均 7.29%区间 2.66% ~ 11.95%

按天走势复盘

这里直接对照有效实验窗 2026-03-23 至 2026-03-30 每天的入桶量与订单表现。可以看到 exp 在部分工作日收入更强,但周末 default 在买家数和总收入上重新反超。

日期类型default入桶exp入桶default付费用户exp付费用户default收入exp收入
2026-03-23weekday372429111324.50142.70
2026-03-24weekday399409231768.6054.60
2026-03-25weekday355390918103.70163.40
2026-03-26weekday363356181341.70461.50
2026-03-27weekday5195341811113.2045.90
2026-03-28weekend10159774524257.50314.00
2026-03-29weekend8287874237411.60212.60
2026-03-30weekday4083862315317.90117.20

“提前释放付费意愿”假设验证

验证 cohort:2026-03-23 至 2026-03-27 入桶用户;验证窗口:周末前(截至 2026-03-27 23:59:59)与周末(2026-03-28 至 2026-03-29)。

结论:假设不被支持。exp 既没有更高的周末前付费转化,也没有更高的周末结束累计转化,只是工作日收入更依赖少量高客单订单。

指标defaultexp
周末前付费转化3.64%3.26%
周末前剩余未付费池19342049
剩余池周末转化0.47%0.20%
到周末结束累计转化4.09%3.45%
到周末结束累计收入485.70953.60

Counterexample Check

如果把 2026-03-17 至 2026-03-22 的无效数据一起算进去,会高估 exp 的整体表现;这是这次复核里最重要的反例风险。

但按有效实验窗重算后,exp 在 D3 上落后、D7 不显著,且 2026-03-28 至 2026-03-29 周末 default 已在买家数与收入上反超。因此若仍沿用旧窗结论去节前全量,会直接放大误判风险。

工作日高收入来自什么商品

default

  • 全能无限电量24小时 | 收入 119.60 | 买家 2
  • 月度捏捏神 | 收入 59.80 | 买家 2
  • [首充福利]200电 | 收入 46.00 | 买家 46
  • 300 电量 | 收入 33.00 | 买家 9
  • 300电量 | 收入 23.20 | 买家 6

exp

  • 无限捏图披萨包 | 收入 239.60 | 买家 4
  • 19800电量 | 收入 198.00 | 买家 1
  • 2400电量 | 收入 96.00 | 买家 4
  • 全能无限电量24小时 | 收入 89.70 | 买家 3
  • 月度捏捏神 | 收入 59.80 | 买家 2

周末商品结构

default

  • 无限捏图披萨包 | 收入 59.90 | 买家 1
  • 月度捏捏神 | 收入 29.90 | 买家 1
  • 300电量 | 收入 17.40 | 买家 1
  • 1200电量 | 收入 9.90 | 买家 1
  • [首充福利]200电 | 收入 7.00 | 买家 7

exp

  • 季度捏捏神 | 收入 69.90 | 买家 1
  • 300 电量 | 收入 11.60 | 买家 2
  • [首充福利]200电 | 收入 2.00 | 买家 2
  • 200电量 | 收入 2.00 | 买家 2

Fact

  • AB 实验 `spu_26_0317_2`(id=31)处于 RUNNING,规则显示仅针对“7天内新用户”。
  • ab_experiment_group_user 到 user 的 UUID 映射覆盖率 100%,口径链路可靠。
  • 有效实验窗内整体 D3 付费转化:default=4.04%,exp=3.40%。
  • 有效实验窗内 D7 付费转化:default=3.23%,exp=3.50%,但只覆盖 2026-03-23 单日 cohort。
  • 节假日前关键 cohort 到周末结束的付费转化:default=4.09%,exp=3.45%。

Interpretation

  • 从有效窗看,实验更像是在工作日放大了少量高客单用户的付费金额,而不是稳定抬升了广泛用户的付费转化。
  • 如果清明节流量结构更接近周末,那么上线风险会从“少量高客单贡献”切回“买家数不足”,这正是当前 exp 没证明自己能扛住的部分。
  • 因此现在更像是一个可继续观察和定向放量的策略,而不是可以放心全量的策略。

Unknown

  • 有效实验窗实际上只有 2026-03-23 至 2026-03-30,样本期很短,清明三天长假是否会放大或抵消这一现象仍未知。
  • 尚未将站内流量来源、支付入口位置、商品曝光策略单独拆出,无法确认周末反转到底是用户心智变化还是流量结构变化。
  • 尚未做更细的商品级实验因果拆分,无法判断是否应只上线高价商品相关策略。

Confidence

Level 2

实验分组是真实 AB,映射链路可靠;但按你修正后的有效窗只剩 2026-03-23 至 2026-03-30,整体 D3、D7 和关键 weekend slice 都没有显著正向结果,D7 甚至只覆盖单日 cohort,因此更适合保守判断。

这份报告能回答什么

  • 能回答:按 2026-03-23 至 2026-03-30 的有效实验窗,这个策略是否已经证明自己适合在清明前直接全量。
  • 当前答案:不能证明。证据更支持“先保守,不要直接全量”。
  • 不能回答:如果继续跑更长时间,或只在部分商品/人群放量,策略最终是否能跑成正向。

建议动作

  • 清明前不要直接 100% 全量上线,优先维持 AB 或只做小比例灰度。
  • 如果业务必须上线,建议限定在高价商品/高 ARPPU 场景,并单独监控买家数下滑风险。
  • 清明三天必须按日盯三项 guardrail:付费用户数、收入、首充福利商品占比。

Action Plan

  • 清明前不要直接 100% 全量上线,优先维持 AB 或只做小比例灰度。
  • 如果业务必须上线,建议限定在高价商品或高 ARPPU 场景,并单独盯买家数的下滑风险。
  • 清明三天逐日复盘付费用户数、收入、首充福利商品占比,若周末连续两天落后则立即回滚。
作者:Codex | 模型:GPT-5.3-codex | 部署时间(UTC):2026-03-31T11:48:48Z

飞书反馈与修订记录

同步时间:2026-04-07 18:01|来源:新用户留存与生图保存率深度分析

查看飞书文档与评论

最近反馈与处理