评论 AB 实验每日监测

目标函数: 提升收到 bot 评论用户的活跃、留存、互动与创作意愿。报告包含描述性日监测与本周 PSM 匹配验证。

描述窗: 2026-03-12 ~ 2026-04-08 | 本周窗: 2026-04-06 ~ 2026-04-08 | 行为数据最新日期: 2026-04-09

本周匹配样本对

1207

D1活跃率(实验组)

52.86%

D1活跃率(对照组)

47.72%

D1活跃Lift

10.76%

核心结论

实验参与用户占评论/发帖活跃用户（日均）2.82%。这不是站内 DAU 占比，而是窄口径活跃盘子占比。
实验参与用户占站内活跃用户（日均）0.35%；评论/发帖活跃盘子占站内活跃用户（日均）12.66%。
本周 PSM 匹配样本对 1207，D1活跃 Lift 10.76%，D1发帖 Lift 42.27%。
D1评论 Lift -11.64%，说明“创作意愿”提升更明显，但“评论互动”仍需补强。

假设验证

假设A（支持）：D1活跃率实验组 52.86%，对照组 47.72%，Lift 10.76%。

假设B（支持）：D1发帖率实验组 40.43%，对照组 28.42%，Lift 42.27%。

假设C（不支持）：D1评论率实验组 30.82%，对照组 34.88%，Lift -11.64%。

每日实验参与人数与活跃盘子

对象: 非 bot、非 internal 用户。指标: 当日实验参与用户数、评论/发帖活跃用户数，以及可用时的站内活跃用户数。

实验参与占比（%）

红线: 实验参与用户 / 评论发帖活跃用户。蓝线: 实验参与用户 / 站内活跃用户（ByteHouse user_id 口径，可用时展示）。

本周 PSM 每日验证

方法: 倾向得分 + 同日分层最近邻匹配（无放回）。

index_date	matched_pairs	d1_active_treat	d1_active_control	d1_active_lift	d3_active_treat	d3_active_control	d7_active_treat	d7_active_control
2026-04-06	614	51.47%	47.07%	9.34%	64.33%	56.35%	NA	NA
2026-04-07	307	57.98%	52.12%	11.25%	NA	NA	NA	NA
2026-04-08	286	50.35%	44.41%	13.39%	NA	NA	NA	NA

匹配平衡性 (SMD)

绝对值越接近 0 越好；用于观察匹配前后样本可比性改善。

feature	pre_match_smd	post_match_smd
pre7_active_days	-0.398	-0.055
pre7_comments	-0.216	-0.303
pre7_posts	-0.184	-0.140
pre7_received_human	-0.176	-0.266
account_age_days	-0.296	0.065

描述性日级明细

用于每日巡检触达覆盖与活跃盘子大小。

stat_date	touched_users	touched_active_users	comment_post_active_users	sitewide_active_user_ids	other_active_users	participant_share_in_panel	participant_share_in_sitewide
2026-03-12	39	37	4335	38882	4298	0.90%	0.10%
2026-03-13	52	46	5081	45431	5035	1.02%	0.11%
2026-03-14	79	71	6933	61755	6862	1.14%	0.13%
2026-03-15	86	78	7097	59354	7019	1.21%	0.14%
2026-03-16	37	33	5672	39847	5639	0.65%	0.09%
2026-03-17	35	29	5845	39393	5816	0.60%	0.09%
2026-03-18	30	27	4810	39584	4783	0.62%	0.08%
2026-03-19	41	40	4849	39792	4809	0.85%	0.10%
2026-03-20	46	44	5458	46276	5414	0.84%	0.10%
2026-03-21	85	73	7322	61453	7249	1.16%	0.14%
2026-03-22	75	61	7271	60365	7210	1.03%	0.12%
2026-03-23	32	26	5991	41419	5965	0.53%	0.08%
2026-03-24	43	37	6123	40468	6086	0.70%	0.11%
2026-03-25	66	62	5071	40089	5009	1.30%	0.16%
2026-03-26	59	57	4830	38805	4773	1.22%	0.15%
2026-03-27	64	63	5241	44908	5178	1.22%	0.14%
2026-03-28	87	84	7002	60556	6918	1.24%	0.14%
2026-03-29	95	86	7126	59207	7040	1.33%	0.16%
2026-03-30	61	51	5796	40096	5745	1.05%	0.15%
2026-03-31	175	159	5991	40111	5832	2.92%	0.44%
2026-04-01	328	304	5015	41254	4711	6.54%	0.80%
2026-04-02	360	348	5141	42183	4793	7.00%	0.85%
2026-04-03	425	405	5742	49349	5337	7.40%	0.86%
2026-04-04	623	599	7062	61857	6463	8.82%	1.01%
2026-04-05	652	593	7472	62735	6879	8.73%	1.04%
2026-04-06	614	593	7824	57999	7231	7.85%	1.06%
2026-04-07	307	296	5683	39207	5387	5.40%	0.78%
2026-04-08	286	272	4935	37662	4663	5.80%	0.76%

每日 AB 分组执行

清单文件: /Users/rating/workspace/neta-bi-runtime/task/20260127_AI评论策略整合/history/20260326_comment_ab_bot_participation_daily/data/csv/daily_ab_assignment_plan_20260408.csv

规则: 触达用户强制进入实验组，其余用户按 propensity decile 随机平衡至实验/对照。

反例与边界条件

如果当天触达用户画像偏向高预热人群，实验组表现可能被高估；如果最新日数据未封板，D1 指标可能被低估。

当前为观察性匹配验证，结论用于策略迭代优先级，不替代严格随机因果实验。

口径提醒: `comment_post_active_users` 仅代表“当日发评论或发作品”的窄口径活跃，不等同于站内 DAU。

行动建议

优先优化“评论互动”子目标：对实验组追加轻问句二次触达，验证 D1评论率是否回升。
维持“创作意愿”优势文案：延续高发帖 Lift 的风格组合，并按新老用户分层投放。
每日复盘匹配样本构成与触达占比，避免样本结构波动掩盖真实策略效果。

飞书反馈与修订记录

同步时间：2026-04-13 13:02｜来源：新用户留存与生图保存率深度分析

查看飞书文档与评论

需求背景完整性：已覆盖
图表表达能力：含图表/交互