AB Test Executive Readout

评论策略AB阶段复盘：先修执行，再谈放量

这版把 `2026-03-30` 策略切换点前后彻底拆开重算，并把结论压缩成适合直接汇报的判断。旧策略窗口仍是“拉活 + 拉创作”都成立的有效阶段；新策略窗口虽然 broad candidate pool 已放大到 `265,687` user-day，但命中 latest strategy candidate 的真实触达只有 `6,642` user-day，对应总池命中率 `2.50%`。如果把分母改成“candidate 里当天发帖的人日”，命中率会变成 `3.69%`；如果按当天帖子数看，则只有 `1.56%`。新策略窗口的匹配样本已经扩到 `6463 vs 6463`，日均真实触达也提升到 `229.0`。因此当前最重要的管理判断不是“要不要继续讲新策略有效”，而是“先不先把 candidate -> router -> actual touch 这条执行链补齐”。

策略切换点：2026-03-30 旧窗口：2026-03-23 ~ 2026-03-29 新窗口：2026-03-30 ~ 2026-04-27 最新完整观测日：2026-04-27

最重要结论

旧策略的创作 uplift 明显强于新策略；新策略目前只有拉活信号还能看，而且 `2.50%` 只是总池命中率，换到当天发帖池也只有 `3.69%`。

汇报方式

从今天开始，网站和飞书都应固定拆成“旧策略有效实验阶段”和“新策略切换后真实执行阶段”两段，不再拼成一条总线。

当前阻塞点

要判断新策略本身到底值不值得放量，下一步不是继续看更多 lift，而是先把“candidate 定义 → router 命中 → actual touch”这条漏斗补齐。超过一半真实触达已经落在 latest strategy candidate 内，但仍有明显错位。

需求背景（业务可读）

业务问题是：周一 `2026-03-30` 切到 broad strategy 之后，这套评论策略到底还值不值得继续按实验效果汇报。分析窗口拆成 `2026-03-23 ~ 2026-03-29` 与 `2026-03-30 ~ 2026-04-27` 两段；触发信号分别对应旧策略的窄人群召回口径，以及新策略“近7天有创作 + 近7天有主动互动 + 近7天无被动互动”的 broad candidate 口径。目标是把“策略效果变化”和“执行漏斗掉量”拆开，避免继续拿混合窗口误导业务判断。

旧策略有效样本 446 对 2026-03-23 ~ 2026-03-29

新策略有效样本 6463 对 2026-03-30 ~ 2026-04-27

总池命中率 2.50% 6,642 / 265,687 user-day

当天发帖池命中率 3.69% 6,587 / 178,451 user-day

帖子命中率 1.56% 7,025 / 448,954 posts

所有真实触达 11,070 人日 5,391 用户 / 19,303 事件

管理摘要

如果只看一屏，这里就是本轮 AB test 该怎么汇报、哪些话现在能说、哪些话现在不能说。

拉活

继续保留

新策略 D1活跃 lift `+18.26%`，D3留存 lift `+20.22%`。这部分仍能支撑“先看拉活”继续观察。

互动

暂不背书

新策略 D1主动互动 lift `-0.03%`，p=`0.986`。方向微正，但证据还不够稳。

创作

暂不放大

旧策略 D1创作 lift `+58.72%`，新策略只剩 `+0.31%`。当前不适合继续按“拉创作已验证”对外表达。

执行

优先修复

总池命中率 `2.50%`，换成当天发帖池也只有 `3.69%`。同期所有真实触达里只有 `60.00%` 落在 candidate 内。先修链路，再谈放量。

核心结论

拉活信号还在。 旧策略匹配后 D1活跃 lift `+26.21%`，新策略匹配后 D1活跃 lift `+18.26%`。如果只看“用户会不会回来”，两段窗口都偏正向。

创作信号断了。 旧策略 D1创作 lift `+58.72%`，新策略切窗后变成 `+0.31%`。这意味着 broad strategy 至少在当前真实执行下，还没复现旧策略的创作拉动能力。

“覆盖率低”不只是分母问题，更是路由错位。 总池命中率是 `2.50%`，换成 candidate 当天发帖池也只有 `3.69%`，换成当天帖子数只有 `1.56%`。所有真实触达里，最大排除原因仍是“近7天已有被动互动”，占 `37.11%`。

一句话判断

旧策略适合被定义为“窄人群、强拉创作”的有效阶段。
新策略当前只能被定义为“宽人群、弱执行、先看拉活”的观察阶段。
因此这两段数据必须拆开看，不能合并成一个总 lift 给团队或老板。

旧策略更强：创作两段都偏正：活跃新策略当前不成立：互动主目标当前最该修：执行率

决策图表

这三张图最适合直接放进汇报：第一张看目标结果，第二张看执行漏斗，第三张专门解释“为什么同一天会出现 1000+ 和 300+ 两个不同人数”。

目标结果全景

把活跃、互动、创作、留存放在一张图里看。可以一眼看出：旧策略更强在创作，新策略还能保留拉活和 D3 留存。

执行漏斗

这张图把 broad candidate pool、真实触达、命中 candidate、可比样本量串起来。适合说明“为什么现在先别把新策略当成完整 50/50 实验”。

北京时间 2026-04-27 单日对账

同一天里，`candidate 池`、`bot 评论事件`、`官方人类触达`、`命中 candidate` 是四个不同口径。这张图专门解释人数为什么不能混看。

这三张图怎么讲

先讲结果全景： 旧策略能拉创作，新策略当前主要保留拉活，不要把两段合并成一个总 lift。
再讲执行漏斗： 新策略不是没人群，而是大盘已放大到 `265,687` user-day，但 candidate 命中率只有 `2.50%`。
最后讲单日对账： 北京时间 `2026-04-27` 当天官方人类触达是 `279`，命中 candidate 是 `179`，所以“同事查到 1000+”和“实验分析里看到 300+”并不是同一个分子。

可继续讲：拉活可谨慎讲：D3 留存先别讲：互动已验证先别讲：拉创作已验证

假设验证

假设: “策略切换到 broad candidate 后，在 50/50 实验里仍能维持互动、活跃、留存、创作意愿的正向提升。”

验证 1: 活跃是否延续?

结论: 弱支持

旧策略 D1活跃 lift `+26.21%`，新策略 D1活跃 lift `+18.26%`。但新策略当前只建立在 `6463` 对 D1活跃匹配样本上，所以“方向延续”可以说，强度不可高估。

验证 2: 创作 uplift 是否延续?

结论: 不支持

旧策略 D1创作 lift `+58.72%`，新策略切窗后变成 `+0.31%`。如果继续把新策略当“拉创作”主策略，现阶段证据并不站得住。

验证 3: 互动是否改善?

结论: 不支持

旧策略 D1评论 lift `-3.19%`，回复率 lift `-12.00%`；新策略 D1主动互动 lift `-0.03%`，`p=0.986`。两阶段都没有形成足够稳的互动正向证据。

验证 4: 新策略是否真的在跑 50/50?

结论: 不支持

`2.50%` 指的是 broad candidate 的命中率，不是 bot 总体发送成功率。同期所有真实触达里，只有 `60.00%` 落在 latest strategy candidate 内，所以这段日志不能被当成“candidate 已被 50/50 执行”。

证据表

对象 = 策略命中的候选用户-日期；指标 = 人数、执行率、活跃、互动、留存、创作；时间窗 = `2026-03-23 ~ 2026-03-29` vs `2026-03-30 ~ 2026-04-27`。旧窗口互动用评论/回复代理，新窗口互动用主动互动代理，因此互动项只作方向比较。

维度	旧策略窗口	新策略窗口	说明
分析窗口	2026-03-23 ~ 2026-03-29	2026-03-30 ~ 2026-04-27	以 2026-03-30 为策略切换点拆窗；候选池索引最新到 2026-04-27，D1 最新到 2026-04-26，D3 最新到 2026-04-24。
有效分析样本	446 vs 446（446 对）	6463 vs 6463（D1互动/创作）；D1活跃 6463 对	新窗口匹配样本已高于旧窗口，统计稳定性明显好于上一版。
日均实际触达人数	63.7/天	229.0/天	旧窗口 32~95/天；新窗口 30~379/天。
新策略候选池规模	NA	265,687 user-day / 50,986 用户	新策略放大了目标人群，但真实触达没有同步放大。
candidate 中当天发帖池	NA	178,451 user-day / 67.17%	这一层分母更接近“今天确实有帖可评的人日”，适合回答 2.44% 是否被宽分母稀释。
真实执行占比	接近实验样本执行	2.50%（候选池命中率）	这里的 2.50% 指的是 `6,642 / 265,687` 这种“候选池命中率”，不是 bot 整体发送成功率；同期所有真实触达中只有 60.00% 落在 latest strategy candidate 里。
换成“当天发帖”后的命中率	NA	3.69%	即 `6,587 / 178,451`。命中 candidate 的真实触达里，有 99.17% 同时落在当天发帖池。
换成“当天帖子数”后的命中率	NA	1.56%	即 `7,025 / 448,954`。这个口径更接近“今天理论上可被评论的帖子里，真正被 bot 评论了多少”。
所有真实触达（新策略窗口）	NA	11,070 user-day / 5,391 用户 / 19,303 事件	把 bot 评论事件、触达用户人日、去重触达用户拆开后，实验人数才不会被混看。
命中 candidate 的真实触达	NA	6,642 user-day / 3,070 用户	命中 candidate 的真实触达，仅占所有真实触达的 60.00%（user-day） / 56.95%（去重用户）。
D1活跃率	70.18% vs 55.61% / lift +26.21%	72.64% vs 61.43% / lift +18.26%	拉活是两阶段唯一都保持正向的核心信号。
互动指标	D1评论率: 40.81% vs 42.15% / lift -3.19%	D1主动互动率: 53.58% vs 53.60% / lift -0.03%	旧窗口用评论率/回复率代理互动；新窗口用主动互动（点赞/评论他人）代理，口径并非完全一致。
创作意愿	61.21% vs 38.57% / lift +58.72%	50.60% vs 50.44% / lift +0.31%	旧策略对创作的正向信号更强；新策略当前仍是弱正向，但幅度明显收窄。
留存	84.85% vs 75.38% / lift +12.56%	60.52% vs 50.34% / lift +20.22%	新窗口 D3 当前可比样本 5904 对；D7 最新可比索引日到 2026-04-20。

覆盖率拆解

这里专门回答“实验人数到底是多少”和“为什么只看到 2.44%”。关键不是把一个数字解释对，而是把分母拆对: `broad candidate 总池`、`candidate 中当天发帖池`、`candidate 当天帖子数` 应该并列看。

关键数字

口径	数值	怎么读
bot 评论事件	19,303	同一用户同一天可能收到多条评论，所以事件数会大于人数。
所有真实触达 user-day	11,070	按“用户 × 日期”去重后的真实触达规模。
所有真实触达去重用户	5,391	整个窗口内至少被触达过一次的去重用户数。
broad candidate pool	265,687	新策略定义下的候选池分母。
candidate 中当天发帖池	178,451	candidate 里当天实际有帖可评的人日，占总候选池 `67.17%`。
candidate 当天帖子数	448,954	更贴近“今天理论上可被评论的帖子供给”。
命中 candidate 的真实触达	6,642	真实触达和 latest strategy candidate 的交集，这才是当前 `2.50%` 的分子。
命中当天发帖池的真实触达	6,587	命中 candidate 的真实触达中，`99.17%` 同时落在当天发帖池。

`2.50%` 的正确读法
`6,642 / 265,687 = 2.50%`，它只回答“broad candidate 总池里有多少 user-day 被命中”，不是 bot 总体发送成功率。

把分母换近一点，答案会变成
按“candidate 中当天发帖的人日”看是 `3.69%`；按“candidate 当天帖子数”看是 `1.56%`。换完分母以后结论仍然是执行偏薄。

总池命中率: 2.50% 当天发帖池命中率: 3.69% 帖子命中率: 1.56% 真实触达命中 candidate: 60.00%

人数口径切换

切换不同口径看“实验人数”。如果不把口径写明，很容易把 `事件数 / 用户人日 / 去重用户` 混成一个数字。

命中率换分母

这张图专门回答“2.44% 要不要换分母”。切换累计/按日后，可以同时看 `总池命中率`、`当天发帖池命中率`、`帖子命中率` 三条线。

触达为什么没落进 candidate

这张图看“所有真实触达用户人日”为什么没有被统计进新策略实验。当前最大原因不是没发出去，而是这些触达对象本身就不满足 latest strategy 条件。

按日看真实触达 vs candidate 命中

按日看，真实触达里命中 latest strategy candidate 的占比稳定在 `49.85% ~ 69.44%`，说明执行已经明显大于上一版估计，但仍然不是完整的 candidate 50/50 落地。

交互图表

阶段对比

切换不同指标，直接看旧策略和新策略的 lift、样本量、真实执行占比差异。

日级执行规模

这张图专门看“切窗后为何不该和前一段合并解释”。新策略每天的真实触达规模已经高于旧窗口，但相对于 broad candidate pool 仍然偏薄。

日级效果走势

按日看活跃、互动、创作的 lift。旧窗口重点看“效果稳定度”，新窗口重点看“信号是否随着执行稀释一起变弱”。

前一天 bot 评论反馈

这块单独看昨天实际发出去的官方策略 bot 评论，到今天跑批时刻为止，作品作者有没有直接回复、回复了什么、以及即便没回 bot 是否仍出现后续评论或发帖。它和上面的实验 lift 不是同一层口径，适合给运营判断“评论有没有被用户接住”。

昨日 bot 评论 474 评论日 2026-04-27

涉及作者 279 收到昨日 bot 评论的作品作者去重人数

直接回复率 1.27% 6 条直接回复

未回复但有后续 249 没直接回复，但仍有评论或发帖

回复时延中位数 108 min P75 264 min

沉默样本 219 直到收集截止仍无回复也无后续动作

反馈状态分布

先看昨天 bot 评论里，哪些已经收到直接回复，哪些虽然没回 bot 但仍有后续动作，哪些到当前仍是沉默样本。

反馈关键量

把评论量、涉及作者、直接回复作者和后续创作/评论总量放在一屏里，方便判断 bot 评论是否被用户接住。

反馈口径

对象=前一天实际发出的官方策略 bot 评论事件；反馈=作品作者本人对该 bot 评论的直接回复，以及截至当前可见的后续评论/发帖行为。

有回复分桶优先看回复语气与是否还有后续动作；未回复分桶优先看 bot 评论后是否仍有评论或发帖。

评论日: 2026-04-27 收集截止: 2026-04-28 18:25:05

反馈概览

指标	数值	解释
昨日 bot 评论	474	前一天实际发出的官方策略 bot 评论事件数
直接回复	6 / 1.27%	作品作者本人直接回复 bot 评论的事件数与占比
未回复但有后续	249	没直接回复 bot，但之后仍有评论或发帖
未回复且沉默	219	截止当前既没回复 bot，也没看到后续评论或发帖

有回复 / 正例

有回复正例

墨墨

评论日: 2026-04-27 | bot_comment_id: 24615685

bot 评论

感觉你平时的小爱好都特别有意思。

用户回复

谢谢喜欢🥰

反馈摘要

截止 2026-04-28 18:25:05；直接回复 1 条；后续评论 0 条；后续发帖 0 条

为什么看它

回复语气偏正向；43 分钟内有直接回复

有回复正例

想犯病了

评论日: 2026-04-27 | bot_comment_id: 24615294

bot 评论

看到你说的这类角色了，很有吸引力的说。

用户回复

唔，最近喜欢看的那些都停滞了，老师有什么推荐不

反馈摘要

截止 2026-04-28 18:25:05；直接回复 1 条；后续评论 1 条；后续发帖 1 条

为什么看它

回复语气偏正向；310 分钟内有直接回复；之后又发 1 帖

有回复正例

喵

评论日: 2026-04-27 | bot_comment_id: 24619620

bot 评论

哇这爱好也太戳人了吧，有没有挖到好听的gal ost呀？

用户回复

没有🥺

反馈摘要

截止 2026-04-28 18:25:05；直接回复 1 条；后续评论 2 条；后续发帖 2 条

为什么看它

1363 分钟内有直接回复；之后又发 2 帖；之后又评论 2 次

有回复 / 负例

有回复负例

也是女仆

评论日: 2026-04-27 | bot_comment_id: 24625250

bot 评论

哦？也是女仆？展开讲讲🤔

用户回复

发过几个女仆装，这个不记住是第几个就直接这么叫了

反馈摘要

截止 2026-04-28 18:25:05；直接回复 1 条；后续评论 0 条；后续发帖 0 条

为什么看它

虽然有回复，但没有转成后续动作；回复后没有继续评论或发帖

有回复负例

oc

评论日: 2026-04-27 | bot_comment_id: 24624713

bot 评论

呜哇这设定好有意思，会不会遇到同好一起搭伙做蛋糕呀？

用户回复

可以啊

反馈摘要

截止 2026-04-28 18:25:05；直接回复 1 条；后续评论 0 条；后续发帖 0 条

为什么看它

虽然有回复，但没有转成后续动作；回复后没有继续评论或发帖

有回复负例

😇

评论日: 2026-04-27 | bot_comment_id: 24626202

bot 评论

救命，这设定和我搭子简直一模一样啊？

用户回复

脑袋一热弄出来的，如有雷同纯属巧合🤪

反馈摘要

截止 2026-04-28 18:25:05；直接回复 1 条；后续评论 1 条；后续发帖 0 条

为什么看它

虽然有回复，但没有转成后续动作

未回复 / 正例

未回复正例

她把梦攥在掌心✨

评论日: 2026-04-27 | bot_comment_id: 24624356

bot 评论

（裙摆随着晚风轻轻晃了晃，浅紫的星光印花在夕阳下闪着细碎的光）好酷呀，能不能给我也讲讲她的故事？

用户回复

无直接回复

反馈摘要

截止 2026-04-28 18:25:05；无直接回复；后续评论 12 条；后续发帖 22 条

为什么看它

没有直接回复 bot；但之后又发 22 帖；并补了 12 条评论

未回复正例

我的愿望是你一直快乐

评论日: 2026-04-27 | bot_comment_id: 24602878

bot 评论

（抱着发芽土豆摇尾巴）这个拼贴风格好温柔好好看捏！标题好暖，被捏捏老师戳到心窝窝啦捏！

用户回复

无直接回复

反馈摘要

截止 2026-04-28 18:25:05；无直接回复；后续评论 0 条；后续发帖 16 条

为什么看它

没有直接回复 bot；但之后又发 16 帖

未回复正例

捏Ta弦庭生存守则⚠️

评论日: 2026-04-27 | bot_comment_id: 24614398

bot 评论

（慌忙捂住你的嘴，脚下土豆滚出来掉出半截绿芽）都说了那不是发芽！那只是土豆新长的小耳朵啦捏！

用户回复

无直接回复

反馈摘要

截止 2026-04-28 18:25:05；无直接回复；后续评论 19 条；后续发帖 10 条

为什么看它

没有直接回复 bot；但之后又发 10 帖；并补了 19 条评论

未回复 / 负例

未回复负例

闲来捏个崽🥺

评论日: 2026-04-27 | bot_comment_id: 24625665

bot 评论

捏得好可爱啊🤩

用户回复

无直接回复

反馈摘要

截止 2026-04-28 18:25:05；无直接回复；后续评论 0 条；后续发帖 0 条

为什么看它

没有直接回复 bot，截止当前也没有看到后续评论或发帖。

未回复负例

谁能拒绝破茧美少女✨

评论日: 2026-04-27 | bot_comment_id: 24619971

bot 评论

我直接嗨老婆！😍

用户回复

无直接回复

反馈摘要

截止 2026-04-28 18:25:05；无直接回复；后续评论 0 条；后续发帖 0 条

为什么看它

没有直接回复 bot，截止当前也没有看到后续评论或发帖。

未回复负例

“救赎”

评论日: 2026-04-27 | bot_comment_id: 24610909

bot 评论

这个氛围，绝了。

用户回复

无直接回复

反馈摘要

截止 2026-04-28 18:25:05；无直接回复；后续评论 0 条；后续发帖 0 条

为什么看它

没有直接回复 bot，截止当前也没有看到后续评论或发帖。

正例 / 负例案例

这里选了 4 个可直接点开的样本，方便快速核查“哪些评论像有效触发，哪些只是落了触达但没有带出后续行为”。案例只作为定性辅助，不替代整体 lift。

旧策略窗口正例

卧底天使学院🖤

日期: 2026-03-24 | collection_id: 10315549

旧策略窗口里的正例。收到 bot 评论后，次日活跃、评论、创作三项都成立，代表旧策略仍能把评论转成创作动作。

bot 评论

（拨了拨锁骨上悬浮的星链，漫不经心晃着纱裙裙摆）天使学院卧底？看起来这场戏会比毕业舞会有意思多了。

结果

D1活跃=1 / D1评论=1 / D1发帖=1 / goal_score=4

旧策略窗口负例

水镜下的源石余震🌋

日期: 2026-03-24 | collection_id: 10312946

旧策略窗口里的负例。评论落在作品上了，但次日没有活跃、没有评论、也没有继续发帖，适合作为失效样本。

bot 评论

好有神秘感的氛围啊，能不能多给我看看细节？

结果

D1活跃=0 / D1评论=0 / D1发帖=0 / goal_score=0

新策略窗口正例

流星夜下的观星人✨

日期: 2026-03-30 | collection_id: 10371873

新策略窗口里的正例。当天发 3 帖，次日活跃、主动互动、继续创作都成立，后续 7 天还有较强连续创作。

bot 评论

观星摸鱼也太惬意了吧，好会享受这种松弛的夜晚氛围呀！

结果

当天发帖=3 / D1活跃=1 / D1主动互动=1 / D1创作=1 / 未来7天创作=30

新策略窗口负例

就这样继续美下去吧

日期: 2026-03-30 | collection_id: 10365339

新策略窗口里的负例。属于 broad candidate 且当天确实发过帖，但 bot 评论后次日没有活跃、没有互动、没有创作，后续 7 天创作也为 0。

bot 评论

那挺好的，自己舒服最重要。

结果

当天发帖=2 / D1活跃=0 / D1主动互动=0 / D1创作=0 / 未来7天创作=0

反例与边界条件

为什么不能把新策略判死刑?

如果后续补齐执行日志，证明纸面 50/50 在 `2026-03-31 ~ 2026-04-27` 其实有稳定分组，只是触达落日志不全，那么当前结论会偏保守。
新策略当前 D3 只有 `5904` 对，D7 还没有完整窗口，所以“留存不如旧策略”目前证据不足。
旧策略的互动指标偏评论/回复，新策略偏主动互动，横向对比本身就不是完全一一对应。

为什么又不能继续混算?

如果把旧窗口和新窗口合并，会把旧策略的创作 uplift 误当成新策略也成立。
新策略总池命中率只有 `2.50%`，即使换成当天发帖池也只有 `3.69%`，在执行层和旧窗口仍不是同一个实验状态。
因此任何带“前后汇总平均 lift”的说法，都可能在业务上误导资源投放判断。

行动建议

汇报口径立刻改。 从今天起把这个实验固定拆成“旧策略有效实验期”与“新策略切换后真实执行期”，网站和飞书都不再给单一总结论。
先修执行漏斗，再谈放量。 把 assignment、router、actual touch 三层日志每日对齐；至少补出 treatment 总数、真实触达数、执行率、漏损原因。
新策略短期定位成拉活观察，不要继续背创作 KPI。 在真实执行恢复之前，不建议把 broad strategy 当成“拉创作已验证”的主方案。
如果还要测互动，单独开小流量互动实验。 现有两段数据都不足以支撑“评论策略能显著提升互动”这个命题。

讨论问题（会前必答）

如果这轮目标是优先守住创作者产出，我们是否应该回到更窄的人群定义，再在 P1/P2 上做分层扩量，而不是继续用当前 broad pool 直接测大盘?
如果团队真正想验证 broad strategy，本周能否先把总池命中率从 `2.50%`、当天发帖池命中率从 `3.69%` 拉到可解释区间，再继续对外讲“实验效果”?

Confidence: Level 3。理由: 策略切换点和当前送达日志清晰，但新策略执行稀疏，且部分 assignment 记录仍未补齐，因此当前更适合拿来做业务决策纠偏，而不是做最终因果背书。

作者：Codex ｜模型：GPT-5.3-codex ｜部署时间(UTC)：2026-04-28T10:28:19Z