评论 AB 实验每日监测

目标函数: 提升收到 bot 评论用户的活跃、留存、互动与创作意愿。报告包含描述性日监测与本周 PSM 匹配验证。

描述窗: 2026-03-29 ~ 2026-04-25 | 本周窗: 2026-04-20 ~ 2026-04-25 | 行为数据最新日期: 2026-04-26

本周匹配样本对

2075

D1活跃率(实验组)

66.27%

D1活跃率(对照组)

54.36%

D1活跃Lift

21.90%

核心结论

实验参与用户占评论/发帖活跃用户（日均）6.30%。这不是站内 DAU 占比，而是窄口径活跃盘子占比。
实验参与用户占站内活跃用户（日均）0.79%；评论/发帖活跃盘子占站内活跃用户（日均）12.73%。
本周 PSM 匹配样本对 2075，D1活跃 Lift 21.90%，D1发帖 Lift 54.63%。
D1评论 Lift -11.21%，说明“创作意愿”提升更明显，但“评论互动”仍需补强。

假设验证

假设A（支持）：D1活跃率实验组 66.27%，对照组 54.36%，Lift 21.90%。

假设B（支持）：D1发帖率实验组 57.16%，对照组 36.96%，Lift 54.63%。

假设C（不支持）：D1评论率实验组 34.75%，对照组 39.13%，Lift -11.21%。

每日实验参与人数与活跃盘子

对象: 非 bot、非 internal 用户。指标: 当日实验参与用户数、评论/发帖活跃用户数，以及可用时的站内活跃用户数。

实验参与占比（%）

红线: 实验参与用户 / 评论发帖活跃用户。蓝线: 实验参与用户 / 站内活跃用户（ByteHouse user_id 口径，可用时展示）。

本周 PSM 每日验证

方法: 倾向得分 + 同日分层最近邻匹配（无放回）。

index_date	matched_pairs	d1_active_treat	d1_active_control	d1_active_lift	d3_active_treat	d3_active_control	d7_active_treat	d7_active_control
2026-04-20	319	64.26%	44.51%	44.37%	78.37%	59.87%	NA	NA
2026-04-21	295	66.78%	49.15%	35.86%	82.37%	65.42%	NA	NA
2026-04-22	332	67.77%	53.31%	27.12%	82.83%	72.29%	NA	NA
2026-04-23	306	70.92%	60.46%	17.30%	83.66%	78.10%	NA	NA
2026-04-24	340	68.24%	61.76%	10.48%	NA	NA	NA	NA
2026-04-25	483	61.90%	55.69%	11.15%	NA	NA	NA	NA

匹配平衡性 (SMD)

绝对值越接近 0 越好；用于观察匹配前后样本可比性改善。

feature	pre_match_smd	post_match_smd
pre7_active_days	-0.381	-0.019
pre7_comments	-0.225	-0.253
pre7_posts	-0.136	0.037
pre7_received_human	-0.178	-0.176
account_age_days	-0.305	0.056

描述性日级明细

用于每日巡检触达覆盖与活跃盘子大小。

stat_date	touched_users	touched_active_users	comment_post_active_users	sitewide_active_user_ids	other_active_users	participant_share_in_panel	participant_share_in_sitewide
2026-03-29	92	85	7108	59287	7023	1.29%	0.16%
2026-03-30	58	48	5783	40147	5735	1.00%	0.14%
2026-03-31	173	158	5962	40169	5804	2.90%	0.43%
2026-04-01	327	303	4998	41301	4695	6.54%	0.79%
2026-04-02	352	342	5116	42241	4774	6.88%	0.83%
2026-04-03	419	399	5720	49417	5321	7.33%	0.85%
2026-04-04	617	592	7021	61925	6429	8.79%	1.00%
2026-04-05	641	582	7436	62815	6854	8.62%	1.02%
2026-04-06	600	578	7763	58110	7185	7.73%	1.03%
2026-04-07	301	290	5650	39296	5360	5.33%	0.77%
2026-04-08	279	265	4899	37810	4634	5.70%	0.74%
2026-04-09	280	269	4557	37641	4288	6.14%	0.74%
2026-04-10	288	268	4926	42968	4658	5.85%	0.67%
2026-04-11	524	490	6597	56894	6107	7.94%	0.92%
2026-04-12	605	533	6765	55888	6232	8.94%	1.08%
2026-04-13	324	286	5508	38369	5222	5.88%	0.84%
2026-04-14	302	256	5084	37767	4828	5.94%	0.80%
2026-04-15	309	294	4933	37992	4639	6.26%	0.81%
2026-04-16	288	267	4652	38720	4385	6.19%	0.74%
2026-04-17	344	329	5374	44848	5045	6.40%	0.77%
2026-04-18	559	494	6892	58558	6398	8.11%	0.95%
2026-04-19	611	585	7660	56893	7075	7.98%	1.07%
2026-04-20	319	307	6041	39641	5734	5.28%	0.80%
2026-04-21	295	279	5016	37437	4737	5.88%	0.79%
2026-04-22	332	306	4791	37479	4485	6.93%	0.89%
2026-04-23	306	286	4635	36329	4349	6.60%	0.84%
2026-04-24	340	318	5083	41793	4765	6.69%	0.81%
2026-04-25	483	451	6631	55858	6180	7.28%	0.86%

每日 AB 分组执行

清单文件: /Users/rating/workspace/neta-bi-runtime/task/20260127_AI评论策略整合/history/20260326_comment_ab_bot_participation_daily/data/csv/daily_ab_assignment_plan_20260425.csv

规则: 触达用户强制进入实验组，其余用户按 propensity decile 随机平衡至实验/对照。

反例与边界条件

如果当天触达用户画像偏向高预热人群，实验组表现可能被高估；如果最新日数据未封板，D1 指标可能被低估。

当前为观察性匹配验证，结论用于策略迭代优先级，不替代严格随机因果实验。

口径提醒: `comment_post_active_users` 仅代表“当日发评论或发作品”的窄口径活跃，不等同于站内 DAU。

行动建议

优先优化“评论互动”子目标：对实验组追加轻问句二次触达，验证 D1评论率是否回升。
维持“创作意愿”优势文案：延续高发帖 Lift 的风格组合，并按新老用户分层投放。
每日复盘匹配样本构成与触达占比，避免样本结构波动掩盖真实策略效果。