评论 AB 实验每日监测

目标函数: 提升收到 bot 评论用户的活跃、留存、互动与创作意愿。报告包含描述性日监测与本周 PSM 匹配验证。

描述窗: 2026-03-23 ~ 2026-04-19 | 本周窗: 2026-04-20 ~ 2026-04-19 | 行为数据最新日期: 2026-04-20

本周匹配样本对

D1活跃率(实验组)

D1活跃率(对照组)

D1活跃Lift

核心结论

实验参与用户占评论/发帖活跃用户（日均）5.16%。这不是站内 DAU 占比，而是窄口径活跃盘子占比。
实验参与用户占站内活跃用户（日均）0.64%；评论/发帖活跃盘子占站内活跃用户（日均）12.73%。
本周 PSM 匹配样本对 0，D1活跃 Lift NA，D1发帖 Lift NA。
D1评论 Lift NA，说明“创作意愿”提升更明显，但“评论互动”仍需补强。

假设验证

假设A（待观察）：D1活跃率实验组 NA，对照组 NA，Lift NA。

假设B（待观察）：D1发帖率实验组 NA，对照组 NA，Lift NA。

假设C（待观察）：D1评论率实验组 NA，对照组 NA，Lift NA。

每日实验参与人数与活跃盘子

对象: 非 bot、非 internal 用户。指标: 当日实验参与用户数、评论/发帖活跃用户数，以及可用时的站内活跃用户数。

实验参与占比（%）

红线: 实验参与用户 / 评论发帖活跃用户。蓝线: 实验参与用户 / 站内活跃用户（ByteHouse user_id 口径，可用时展示）。

本周 PSM 每日验证

方法: 倾向得分 + 同日分层最近邻匹配（无放回）。

index_date	matched_pairs	d1_active_treat	d1_active_control	d1_active_lift	d3_active_treat	d3_active_control	d7_active_treat	d7_active_control

匹配平衡性 (SMD)

绝对值越接近 0 越好；用于观察匹配前后样本可比性改善。

feature	pre_match_smd	post_match_smd
pre7_active_days	NA	NA
pre7_comments	NA	NA
pre7_posts	NA	NA
pre7_received_human	NA	NA
account_age_days	NA	NA

描述性日级明细

用于每日巡检触达覆盖与活跃盘子大小。

stat_date	touched_users	touched_active_users	comment_post_active_users	sitewide_active_user_ids	other_active_users	participant_share_in_panel	participant_share_in_sitewide
2026-03-23	32	26	5984	41472	5958	0.53%	0.08%
2026-03-24	43	37	6107	40521	6070	0.70%	0.11%
2026-03-25	65	61	5067	40168	5006	1.28%	0.16%
2026-03-26	58	56	4816	38851	4760	1.20%	0.15%
2026-03-27	62	61	5232	44948	5171	1.19%	0.14%
2026-03-28	86	83	6984	60604	6901	1.23%	0.14%
2026-03-29	92	85	7113	59273	7028	1.29%	0.16%
2026-03-30	58	48	5787	40149	5739	1.00%	0.14%
2026-03-31	173	158	5972	40176	5814	2.90%	0.43%
2026-04-01	327	303	5001	41307	4698	6.54%	0.79%
2026-04-02	354	344	5122	42239	4778	6.91%	0.84%
2026-04-03	420	400	5724	49415	5324	7.34%	0.85%
2026-04-04	619	595	7031	61918	6436	8.80%	1.00%
2026-04-05	644	585	7443	62813	6858	8.65%	1.03%
2026-04-06	602	579	7774	58104	7195	7.74%	1.04%
2026-04-07	303	292	5656	39294	5364	5.36%	0.77%
2026-04-08	280	266	4907	37805	4641	5.71%	0.74%
2026-04-09	280	269	4559	37638	4290	6.14%	0.74%
2026-04-10	291	271	4933	42963	4662	5.90%	0.68%
2026-04-11	527	493	6608	56879	6115	7.98%	0.93%
2026-04-12	609	536	6771	55875	6235	8.99%	1.09%
2026-04-13	325	287	5518	38361	5231	5.89%	0.85%
2026-04-14	305	258	5090	37769	4832	5.99%	0.81%
2026-04-15	311	296	4944	37991	4648	6.29%	0.82%
2026-04-16	291	270	4660	38711	4390	6.24%	0.75%
2026-04-17	346	331	5385	44833	5054	6.43%	0.77%
2026-04-18	569	503	6914	58527	6411	8.23%	0.97%
2026-04-19	622	596	7701	56832	7105	8.08%	1.09%

每日 AB 分组执行

清单文件: /Users/rating/workspace/neta-bi-runtime/task/20260127_AI评论策略整合/history/20260326_comment_ab_bot_participation_daily/data/csv/daily_ab_assignment_plan_20260419.csv

规则: 触达用户强制进入实验组，其余用户按 propensity decile 随机平衡至实验/对照。

反例与边界条件

如果当天触达用户画像偏向高预热人群，实验组表现可能被高估；如果最新日数据未封板，D1 指标可能被低估。

当前为观察性匹配验证，结论用于策略迭代优先级，不替代严格随机因果实验。

口径提醒: `comment_post_active_users` 仅代表“当日发评论或发作品”的窄口径活跃，不等同于站内 DAU。

行动建议

优先优化“评论互动”子目标：对实验组追加轻问句二次触达，验证 D1评论率是否回升。
维持“创作意愿”优势文案：延续高发帖 Lift 的风格组合，并按新老用户分层投放。
每日复盘匹配样本构成与触达占比，避免样本结构波动掩盖真实策略效果。

飞书反馈与修订记录

同步时间：2026-04-21 22:20｜来源：新用户留存与生图保存率深度分析

查看飞书文档与评论

需求背景完整性：已覆盖
图表表达能力：含图表/交互