AB Test Executive Readout

评论策略AB阶段复盘:先修执行,再谈放量

这版把 `2026-03-30` 策略切换点前后彻底拆开重算,并把结论压缩成适合直接汇报的判断。旧策略窗口仍是“拉活 + 拉创作”都成立的有效阶段;新策略窗口虽然 broad candidate pool 已放大到 `265,687` user-day,但命中 latest strategy candidate 的真实触达只有 `6,642` user-day,对应总池命中率 `2.50%`。如果把分母改成“candidate 里当天发帖的人日”,命中率会变成 `3.69%`;如果按当天帖子数看,则只有 `1.56%`。新策略窗口的匹配样本已经扩到 `6463 vs 6463`,日均真实触达也提升到 `229.0`。 因此当前最重要的管理判断不是“要不要继续讲新策略有效”,而是“先不先把 candidate -> router -> actual touch 这条执行链补齐”。

策略切换点:2026-03-30 旧窗口:2026-03-23 ~ 2026-03-29 新窗口:2026-03-30 ~ 2026-04-27 最新完整观测日:2026-04-27
最重要结论

旧策略的创作 uplift 明显强于新策略;新策略目前只有拉活信号还能看,而且 `2.50%` 只是总池命中率,换到当天发帖池也只有 `3.69%`。

汇报方式

从今天开始,网站和飞书都应固定拆成“旧策略有效实验阶段”和“新策略切换后真实执行阶段”两段,不再拼成一条总线。

当前阻塞点

要判断新策略本身到底值不值得放量,下一步不是继续看更多 lift,而是先把“candidate 定义 → router 命中 → actual touch”这条漏斗补齐。超过一半真实触达已经落在 latest strategy candidate 内,但仍有明显错位。

需求背景(业务可读)

业务问题是:周一 `2026-03-30` 切到 broad strategy 之后,这套评论策略到底还值不值得继续按实验效果汇报。分析窗口拆成 `2026-03-23 ~ 2026-03-29` 与 `2026-03-30 ~ 2026-04-27` 两段;触发信号分别对应旧策略的窄人群召回口径,以及新策略“近7天有创作 + 近7天有主动互动 + 近7天无被动互动”的 broad candidate 口径。目标是把“策略效果变化”和“执行漏斗掉量”拆开,避免继续拿混合窗口误导业务判断。

旧策略有效样本 446 对 2026-03-23 ~ 2026-03-29
新策略有效样本 6463 对 2026-03-30 ~ 2026-04-27
总池命中率 2.50% 6,642 / 265,687 user-day
当天发帖池命中率 3.69% 6,587 / 178,451 user-day
帖子命中率 1.56% 7,025 / 448,954 posts
所有真实触达 11,070 人日 5,391 用户 / 19,303 事件

管理摘要

如果只看一屏,这里就是本轮 AB test 该怎么汇报、哪些话现在能说、哪些话现在不能说。

拉活

继续保留

新策略 D1活跃 lift `+18.26%`,D3留存 lift `+20.22%`。 这部分仍能支撑“先看拉活”继续观察。

互动

暂不背书

新策略 D1主动互动 lift `-0.03%`,p=`0.986`。 方向微正,但证据还不够稳。

创作

暂不放大

旧策略 D1创作 lift `+58.72%`,新策略只剩 `+0.31%`。 当前不适合继续按“拉创作已验证”对外表达。

执行

优先修复

总池命中率 `2.50%`,换成当天发帖池也只有 `3.69%`。 同期所有真实触达里只有 `60.00%` 落在 candidate 内。先修链路,再谈放量。

核心结论

拉活信号还在。 旧策略匹配后 D1活跃 lift `+26.21%`,新策略匹配后 D1活跃 lift `+18.26%`。如果只看“用户会不会回来”,两段窗口都偏正向。
创作信号断了。 旧策略 D1创作 lift `+58.72%`,新策略切窗后变成 `+0.31%`。这意味着 broad strategy 至少在当前真实执行下,还没复现旧策略的创作拉动能力。
“覆盖率低”不只是分母问题,更是路由错位。 总池命中率是 `2.50%`,换成 candidate 当天发帖池也只有 `3.69%`,换成当天帖子数只有 `1.56%`。所有真实触达里,最大排除原因仍是“近7天已有被动互动”,占 `37.11%`。

一句话判断

  • 旧策略适合被定义为“窄人群、强拉创作”的有效阶段。
  • 新策略当前只能被定义为“宽人群、弱执行、先看拉活”的观察阶段。
  • 因此这两段数据必须拆开看,不能合并成一个总 lift 给团队或老板。
旧策略更强:创作 两段都偏正:活跃 新策略当前不成立:互动主目标 当前最该修:执行率

决策图表

这三张图最适合直接放进汇报:第一张看目标结果,第二张看执行漏斗,第三张专门解释“为什么同一天会出现 1000+ 和 300+ 两个不同人数”。

目标结果全景

把活跃、互动、创作、留存放在一张图里看。可以一眼看出:旧策略更强在创作,新策略还能保留拉活和 D3 留存。

执行漏斗

这张图把 broad candidate pool、真实触达、命中 candidate、可比样本量串起来。适合说明“为什么现在先别把新策略当成完整 50/50 实验”。

北京时间 2026-04-27 单日对账

同一天里,`candidate 池`、`bot 评论事件`、`官方人类触达`、`命中 candidate` 是四个不同口径。这张图专门解释人数为什么不能混看。

这三张图怎么讲

  • 先讲结果全景: 旧策略能拉创作,新策略当前主要保留拉活,不要把两段合并成一个总 lift。
  • 再讲执行漏斗: 新策略不是没人群,而是大盘已放大到 `265,687` user-day,但 candidate 命中率只有 `2.50%`。
  • 最后讲单日对账: 北京时间 `2026-04-27` 当天官方人类触达是 `279`,命中 candidate 是 `179`,所以“同事查到 1000+”和“实验分析里看到 300+”并不是同一个分子。
可继续讲:拉活 可谨慎讲:D3 留存 先别讲:互动已验证 先别讲:拉创作已验证

假设验证

假设: “策略切换到 broad candidate 后,在 50/50 实验里仍能维持互动、活跃、留存、创作意愿的正向提升。”

验证 1: 活跃是否延续?

结论: 弱支持

旧策略 D1活跃 lift `+26.21%`,新策略 D1活跃 lift `+18.26%`。但新策略当前只建立在 `6463` 对 D1活跃匹配样本上,所以“方向延续”可以说,强度不可高估。

验证 2: 创作 uplift 是否延续?

结论: 不支持

旧策略 D1创作 lift `+58.72%`,新策略切窗后变成 `+0.31%`。如果继续把新策略当“拉创作”主策略,现阶段证据并不站得住。

验证 3: 互动是否改善?

结论: 不支持

旧策略 D1评论 lift `-3.19%`,回复率 lift `-12.00%`;新策略 D1主动互动 lift `-0.03%`,`p=0.986`。两阶段都没有形成足够稳的互动正向证据。

验证 4: 新策略是否真的在跑 50/50?

结论: 不支持

`2.50%` 指的是 broad candidate 的命中率,不是 bot 总体发送成功率。同期所有真实触达里,只有 `60.00%` 落在 latest strategy candidate 内,所以这段日志不能被当成“candidate 已被 50/50 执行”。

证据表

对象 = 策略命中的候选用户-日期;指标 = 人数、执行率、活跃、互动、留存、创作;时间窗 = `2026-03-23 ~ 2026-03-29` vs `2026-03-30 ~ 2026-04-27`。旧窗口互动用评论/回复代理,新窗口互动用主动互动代理,因此互动项只作方向比较。

维度 旧策略窗口 新策略窗口 说明
分析窗口 2026-03-23 ~ 2026-03-29 2026-03-30 ~ 2026-04-27 以 2026-03-30 为策略切换点拆窗;候选池索引最新到 2026-04-27,D1 最新到 2026-04-26,D3 最新到 2026-04-24。
有效分析样本 446 vs 446(446 对) 6463 vs 6463(D1互动/创作);D1活跃 6463 对 新窗口匹配样本已高于旧窗口,统计稳定性明显好于上一版。
日均实际触达人数 63.7/天 229.0/天 旧窗口 32~95/天;新窗口 30~379/天。
新策略候选池规模 NA 265,687 user-day / 50,986 用户 新策略放大了目标人群,但真实触达没有同步放大。
candidate 中当天发帖池 NA 178,451 user-day / 67.17% 这一层分母更接近“今天确实有帖可评的人日”,适合回答 2.44% 是否被宽分母稀释。
真实执行占比 接近实验样本执行 2.50%(候选池命中率) 这里的 2.50% 指的是 `6,642 / 265,687` 这种“候选池命中率”,不是 bot 整体发送成功率;同期所有真实触达中只有 60.00% 落在 latest strategy candidate 里。
换成“当天发帖”后的命中率 NA 3.69% 即 `6,587 / 178,451`。 命中 candidate 的真实触达里,有 99.17% 同时落在当天发帖池。
换成“当天帖子数”后的命中率 NA 1.56% 即 `7,025 / 448,954`。 这个口径更接近“今天理论上可被评论的帖子里,真正被 bot 评论了多少”。
所有真实触达(新策略窗口) NA 11,070 user-day / 5,391 用户 / 19,303 事件 把 bot 评论事件、触达用户人日、去重触达用户拆开后,实验人数才不会被混看。
命中 candidate 的真实触达 NA 6,642 user-day / 3,070 用户 命中 candidate 的真实触达,仅占所有真实触达的 60.00%(user-day) / 56.95%(去重用户)。
D1活跃率 70.18% vs 55.61% / lift +26.21% 72.64% vs 61.43% / lift +18.26% 拉活是两阶段唯一都保持正向的核心信号。
互动指标 D1评论率: 40.81% vs 42.15% / lift -3.19% D1主动互动率: 53.58% vs 53.60% / lift -0.03% 旧窗口用评论率/回复率代理互动;新窗口用主动互动(点赞/评论他人)代理,口径并非完全一致。
创作意愿 61.21% vs 38.57% / lift +58.72% 50.60% vs 50.44% / lift +0.31% 旧策略对创作的正向信号更强;新策略当前仍是弱正向,但幅度明显收窄。
留存 84.85% vs 75.38% / lift +12.56% 60.52% vs 50.34% / lift +20.22% 新窗口 D3 当前可比样本 5904 对;D7 最新可比索引日到 2026-04-20。

覆盖率拆解

这里专门回答“实验人数到底是多少”和“为什么只看到 2.44%”。关键不是把一个数字解释对,而是把分母拆对: `broad candidate 总池`、`candidate 中当天发帖池`、`candidate 当天帖子数` 应该并列看。

关键数字

口径 数值 怎么读
bot 评论事件 19,303 同一用户同一天可能收到多条评论,所以事件数会大于人数。
所有真实触达 user-day 11,070 按“用户 × 日期”去重后的真实触达规模。
所有真实触达去重用户 5,391 整个窗口内至少被触达过一次的去重用户数。
broad candidate pool 265,687 新策略定义下的候选池分母。
candidate 中当天发帖池 178,451 candidate 里当天实际有帖可评的人日,占总候选池 `67.17%`。
candidate 当天帖子数 448,954 更贴近“今天理论上可被评论的帖子供给”。
命中 candidate 的真实触达 6,642 真实触达和 latest strategy candidate 的交集,这才是当前 `2.50%` 的分子。
命中当天发帖池的真实触达 6,587 命中 candidate 的真实触达中,`99.17%` 同时落在当天发帖池。
`2.50%` 的正确读法
`6,642 / 265,687 = 2.50%`,它只回答“broad candidate 总池里有多少 user-day 被命中”,不是 bot 总体发送成功率。
把分母换近一点,答案会变成
按“candidate 中当天发帖的人日”看是 `3.69%`;按“candidate 当天帖子数”看是 `1.56%`。换完分母以后结论仍然是执行偏薄。
总池命中率: 2.50% 当天发帖池命中率: 3.69% 帖子命中率: 1.56% 真实触达命中 candidate: 60.00%

人数口径切换

切换不同口径看“实验人数”。如果不把口径写明,很容易把 `事件数 / 用户人日 / 去重用户` 混成一个数字。

命中率换分母

这张图专门回答“2.44% 要不要换分母”。切换累计/按日后,可以同时看 `总池命中率`、`当天发帖池命中率`、`帖子命中率` 三条线。

触达为什么没落进 candidate

这张图看“所有真实触达用户人日”为什么没有被统计进新策略实验。当前最大原因不是没发出去,而是这些触达对象本身就不满足 latest strategy 条件。

按日看真实触达 vs candidate 命中

按日看,真实触达里命中 latest strategy candidate 的占比稳定在 `49.85% ~ 69.44%`,说明执行已经明显大于上一版估计,但仍然不是完整的 candidate 50/50 落地。

交互图表

阶段对比

切换不同指标,直接看旧策略和新策略的 lift、样本量、真实执行占比差异。

日级执行规模

这张图专门看“切窗后为何不该和前一段合并解释”。新策略每天的真实触达规模已经高于旧窗口,但相对于 broad candidate pool 仍然偏薄。

日级效果走势

按日看活跃、互动、创作的 lift。旧窗口重点看“效果稳定度”,新窗口重点看“信号是否随着执行稀释一起变弱”。

前一天 bot 评论反馈

这块单独看昨天实际发出去的官方策略 bot 评论,到今天跑批时刻为止,作品作者有没有直接回复、回复了什么、以及即便没回 bot 是否仍出现后续评论或发帖。它和上面的实验 lift 不是同一层口径,适合给运营判断“评论有没有被用户接住”。

昨日 bot 评论 474 评论日 2026-04-27
涉及作者 279 收到昨日 bot 评论的作品作者去重人数
直接回复率 1.27% 6 条直接回复
未回复但有后续 249 没直接回复,但仍有评论或发帖
回复时延中位数 108 min P75 264 min
沉默样本 219 直到收集截止仍无回复也无后续动作

反馈状态分布

先看昨天 bot 评论里,哪些已经收到直接回复,哪些虽然没回 bot 但仍有后续动作,哪些到当前仍是沉默样本。

反馈关键量

把评论量、涉及作者、直接回复作者和后续创作/评论总量放在一屏里,方便判断 bot 评论是否被用户接住。

反馈口径

对象=前一天实际发出的官方策略 bot 评论事件;反馈=作品作者本人对该 bot 评论的直接回复,以及截至当前可见的后续评论/发帖行为。

有回复分桶优先看回复语气与是否还有后续动作;未回复分桶优先看 bot 评论后是否仍有评论或发帖。

评论日: 2026-04-27 收集截止: 2026-04-28 18:25:05

反馈概览

指标 数值 解释
昨日 bot 评论 474 前一天实际发出的官方策略 bot 评论事件数
直接回复 6 / 1.27% 作品作者本人直接回复 bot 评论的事件数与占比
未回复但有后续 249 没直接回复 bot,但之后仍有评论或发帖
未回复且沉默 219 截止当前既没回复 bot,也没看到后续评论或发帖

正例 / 负例案例

这里选了 4 个可直接点开的样本,方便快速核查“哪些评论像有效触发,哪些只是落了触达但没有带出后续行为”。案例只作为定性辅助,不替代整体 lift。

旧策略窗口 正例

卧底天使学院🖤

日期: 2026-03-24 | collection_id: 10315549

旧策略窗口里的正例。收到 bot 评论后,次日活跃、评论、创作三项都成立,代表旧策略仍能把评论转成创作动作。

bot 评论

(拨了拨锁骨上悬浮的星链,漫不经心晃着纱裙裙摆)天使学院卧底?看起来这场戏会比毕业舞会有意思多了。

结果

D1活跃=1 / D1评论=1 / D1发帖=1 / goal_score=4

旧策略窗口 负例

水镜下的源石余震🌋

日期: 2026-03-24 | collection_id: 10312946

旧策略窗口里的负例。评论落在作品上了,但次日没有活跃、没有评论、也没有继续发帖,适合作为失效样本。

bot 评论

好有神秘感的氛围啊,能不能多给我看看细节?

结果

D1活跃=0 / D1评论=0 / D1发帖=0 / goal_score=0

新策略窗口 正例

流星夜下的观星人✨

日期: 2026-03-30 | collection_id: 10371873

新策略窗口里的正例。当天发 3 帖,次日活跃、主动互动、继续创作都成立,后续 7 天还有较强连续创作。

bot 评论

观星摸鱼也太惬意了吧,好会享受这种松弛的夜晚氛围呀!

结果

当天发帖=3 / D1活跃=1 / D1主动互动=1 / D1创作=1 / 未来7天创作=30

新策略窗口 负例

就这样继续美下去吧

日期: 2026-03-30 | collection_id: 10365339

新策略窗口里的负例。属于 broad candidate 且当天确实发过帖,但 bot 评论后次日没有活跃、没有互动、没有创作,后续 7 天创作也为 0。

bot 评论

那挺好的,自己舒服最重要。

结果

当天发帖=2 / D1活跃=0 / D1主动互动=0 / D1创作=0 / 未来7天创作=0

反例与边界条件

为什么不能把新策略判死刑?

  • 如果后续补齐执行日志,证明纸面 50/50 在 `2026-03-31 ~ 2026-04-27` 其实有稳定分组,只是触达落日志不全,那么当前结论会偏保守。
  • 新策略当前 D3 只有 `5904` 对,D7 还没有完整窗口,所以“留存不如旧策略”目前证据不足。
  • 旧策略的互动指标偏评论/回复,新策略偏主动互动,横向对比本身就不是完全一一对应。

为什么又不能继续混算?

  • 如果把旧窗口和新窗口合并,会把旧策略的创作 uplift 误当成新策略也成立。
  • 新策略总池命中率只有 `2.50%`,即使换成当天发帖池也只有 `3.69%`,在执行层和旧窗口仍不是同一个实验状态。
  • 因此任何带“前后汇总平均 lift”的说法,都可能在业务上误导资源投放判断。

行动建议

  • 汇报口径立刻改。 从今天起把这个实验固定拆成“旧策略有效实验期”与“新策略切换后真实执行期”,网站和飞书都不再给单一总结论。
  • 先修执行漏斗,再谈放量。 把 assignment、router、actual touch 三层日志每日对齐;至少补出 treatment 总数、真实触达数、执行率、漏损原因。
  • 新策略短期定位成拉活观察,不要继续背创作 KPI。 在真实执行恢复之前,不建议把 broad strategy 当成“拉创作已验证”的主方案。
  • 如果还要测互动,单独开小流量互动实验。 现有两段数据都不足以支撑“评论策略能显著提升互动”这个命题。

讨论问题(会前必答)

  • 如果这轮目标是优先守住创作者产出,我们是否应该回到更窄的人群定义,再在 P1/P2 上做分层扩量,而不是继续用当前 broad pool 直接测大盘?
  • 如果团队真正想验证 broad strategy,本周能否先把总池命中率从 `2.50%`、当天发帖池命中率从 `3.69%` 拉到可解释区间,再继续对外讲“实验效果”?

Confidence: Level 3。理由: 策略切换点和当前送达日志清晰,但新策略执行稀疏,且部分 assignment 记录仍未补齐,因此当前更适合拿来做业务决策纠偏,而不是做最终因果背书。

作者:Codex | 模型:GPT-5.3-codex | 部署时间(UTC):2026-04-28T10:28:19Z