评论 AB 实验每日监测

目标函数: 提升收到 bot 评论用户的活跃、留存、互动与创作意愿。报告包含描述性日监测与本周 PSM 匹配验证。

描述窗: 2026-03-28 ~ 2026-04-24 | 本周窗: 2026-04-20 ~ 2026-04-24 | 行为数据最新日期: 2026-04-25

本周匹配样本对
1599
D1活跃率(实验组)
66.42%
D1活跃率(对照组)
51.28%
D1活跃Lift
29.51%

核心结论

  1. 实验参与用户占评论/发帖活跃用户(日均)6.09%。这不是站内 DAU 占比,而是窄口径活跃盘子占比。
  2. 实验参与用户占站内活跃用户(日均)0.77%;评论/发帖活跃盘子占站内活跃用户(日均)12.72%。
  3. 本周 PSM 匹配样本对 1599,D1活跃 Lift 29.51%,D1发帖 Lift 80.40%。
  4. D1评论 Lift -12.60%,说明“创作意愿”提升更明显,但“评论互动”仍需补强。

假设验证

假设A(支持):D1活跃率实验组 66.42%,对照组 51.28%,Lift 29.51%。

假设B(支持):D1发帖率实验组 56.97%,对照组 31.58%,Lift 80.40%。

假设C(不支持):D1评论率实验组 34.71%,对照组 39.71%,Lift -12.60%。

每日实验参与人数与活跃盘子

对象: 非 bot、非 internal 用户。指标: 当日实验参与用户数、评论/发帖活跃用户数,以及可用时的站内活跃用户数。

实验参与占比(%)

红线: 实验参与用户 / 评论发帖活跃用户。蓝线: 实验参与用户 / 站内活跃用户(ByteHouse user_id 口径,可用时展示)。

本周 PSM 每日验证

方法: 倾向得分 + 同日分层最近邻匹配(无放回)。

index_datematched_pairsd1_active_treatd1_active_controld1_active_liftd3_active_treatd3_active_controld7_active_treatd7_active_control
2026-04-2031964.26%45.14%42.36%78.37%61.13%NANA
2026-04-2129666.89%48.99%36.55%82.43%66.55%NANA
2026-04-2233367.87%51.95%30.64%82.58%69.07%NANA
2026-04-2330670.92%53.27%33.13%NANANANA
2026-04-2434562.61%56.52%10.77%NANANANA

匹配平衡性 (SMD)

绝对值越接近 0 越好;用于观察匹配前后样本可比性改善。

featurepre_match_smdpost_match_smd
pre7_active_days-0.377-0.011
pre7_comments-0.232-0.268
pre7_posts-0.1320.048
pre7_received_human-0.182-0.175
account_age_days-0.3140.047

描述性日级明细

用于每日巡检触达覆盖与活跃盘子大小。

stat_datetouched_userstouched_active_userscomment_post_active_userssitewide_active_user_idsother_active_usersparticipant_share_in_panelparticipant_share_in_sitewide
2026-03-28868369826060568991.23%0.14%
2026-03-29928571105928270251.29%0.16%
2026-03-30584857834014457351.00%0.14%
2026-03-3117315859644016458062.90%0.43%
2026-04-0132730350004129646976.54%0.79%
2026-04-0235234251174223147756.88%0.83%
2026-04-0341939957214940953227.32%0.85%
2026-04-0461859470256191664318.80%1.00%
2026-04-0564258374376280668548.63%1.02%
2026-04-0660057877685810171907.72%1.03%
2026-04-0730129056503929053605.33%0.77%
2026-04-0827926549003780646355.69%0.74%
2026-04-0928026945573764342886.14%0.74%
2026-04-1028926949274296246585.87%0.67%
2026-04-1152449066035688061137.94%0.92%
2026-04-1260653467665587662328.96%1.08%
2026-04-1332428655093836752235.88%0.84%
2026-04-1430225650863776048305.94%0.80%
2026-04-1531029549353798646406.28%0.82%
2026-04-1629026946543871443856.23%0.75%
2026-04-1734533053764483850466.42%0.77%
2026-04-1855949468955853564018.11%0.95%
2026-04-1961158576665687670817.97%1.07%
2026-04-2031930760483962557415.27%0.80%
2026-04-2129627950203742847415.90%0.79%
2026-04-2233330747963747244896.94%0.89%
2026-04-2330628646373631843516.60%0.84%
2026-04-2434532350884174147656.78%0.83%

每日 AB 分组执行

清单文件: /Users/rating/workspace/neta-bi-runtime/task/20260127_AI评论策略整合/history/20260326_comment_ab_bot_participation_daily/data/csv/daily_ab_assignment_plan_20260424.csv

规则: 触达用户强制进入实验组,其余用户按 propensity decile 随机平衡至实验/对照。

反例与边界条件

如果当天触达用户画像偏向高预热人群,实验组表现可能被高估;如果最新日数据未封板,D1 指标可能被低估。

当前为观察性匹配验证,结论用于策略迭代优先级,不替代严格随机因果实验。

口径提醒: `comment_post_active_users` 仅代表“当日发评论或发作品”的窄口径活跃,不等同于站内 DAU。

行动建议

  1. 优先优化“评论互动”子目标:对实验组追加轻问句二次触达,验证 D1评论率是否回升。
  2. 维持“创作意愿”优势文案:延续高发帖 Lift 的风格组合,并按新老用户分层投放。
  3. 每日复盘匹配样本构成与触达占比,避免样本结构波动掩盖真实策略效果。
作者:Codex | 模型:GPT-5.3-codex | 部署时间(UTC):2026-04-25T10:26:16Z

飞书反馈与修订记录

同步时间:2026-04-25 22:01|来源:新用户留存与生图保存率深度分析

查看飞书文档与评论

最近反馈与处理