Daily Executive Brief · Strategy ABTest

评论策略 ABTest 数据总报告

建议继续把这套评论策略用于拉活和拉创作，但不要把它当作互动主策略；互动目标需要拆成单独子实验。

描述窗 2026-03-02 ~ 2026-03-29 周AB窗 2026-03-23 ~ 2026-03-29 样本对 645 策略口径 travel_character_parent run_date 20260330

今天的判断

继续保留当前策略负责拉活、拉创作；互动和回复链路不要混在同一个成功标准里，需要拆成独立改版实验。

老板最该看

D1发帖 Lift 20.15% 是最大亮点，D1评论 Lift -6.25% 是当前主要短板。

核心结论

目标函数结果：活跃/创作显著正向，互动偏弱。D1活跃 Lift 11.73%，D1发帖 Lift 20.15%，D1评论 Lift -6.25%。
留存代理（D3活跃）保持正向：Lift 4.62%。
回复链路尚未跑通：D1回复评论率实验组 9.61% vs 对照组 10.08%（p=0.779197）。
文案层面最优风格为情绪鼓励型（goal_hit 69.81%），但问句策略出现“评论率升、总达成降”的反直觉现象。

胜负灯

先看这四个灯，就能知道这轮策略是“该继续放量”还是“该拆子实验”。

D1活跃支持

11.73%

实验组 59.07%对照组 52.87%

这轮最稳的正向信号，适合继续承担拉活目标。

D1发帖支持

20.15%

实验组 49.92%对照组 41.55%

创作意愿提升最明显，是当前策略最大的业务价值。

D1评论不支持

-6.25%

实验组 34.88%对照组 37.21%

用户并没有更愿意公开互动，互动目标需要另拆实验。

D1回复评论不支持

-4.62%

实验组 9.61%对照组 10.08%

链路尚未跑通，当前 p=0.779197。

假设验证

把大目标函数拆成 4 个老板能直接判断的假设，避免“整体好像有效”但不知道到底好在哪。

活跃意愿支持

实验组 59.07% / 对照组 52.87%

Lift 11.73%

创作意愿支持

实验组 49.92% / 对照组 41.55%

Lift 20.15%

互动意愿不支持

实验组 34.88% / 对照组 37.21%

Lift -6.25%

回复链路不支持

实验组 9.61% / 对照组 10.08%

p=0.779197

实验组 vs 对照组证据表

指标	实验组	对照组	Lift	p-value
D1活跃率	59.07%	52.87%	11.73%	NA
D1发帖率	49.92%	41.55%	20.15%	NA
D1评论率	34.88%	37.21%	-6.25%	NA
D3活跃率	75.48%	72.14%	4.62%	NA
D1回复评论率	9.61%	10.08%	-4.62%	0.779197
D1回复策略bot评论率	0.31%	0.00%	NA	0.156977

覆盖背景：28 天内实验参与用户累计 1223，日均参与率 1.00%；最高日 2026-03-09，最低日 2026-03-06。

分日拆解（含每组人数）

按触达日看匹配后样本，每天都把实验组 n、对照组 n 和 D1 目标函数并排展开，避免只看总均值。

触达日	实验组n	对照组n	D1活跃(实/对)	Lift	D1评论(实/对)	Lift	D1发帖(实/对)	Lift
2026-03-23	94	94	70.21% / 65.96%	6.45%	31.91% / 44.68%	-28.57%	62.77% / 52.13%	20.41%
2026-03-24	84	84	67.86% / 61.90%	9.62%	34.52% / 46.43%	-25.64%	57.14% / 47.62%	20.00%
2026-03-25	77	77	62.34% / 55.84%	11.63%	36.36% / 45.45%	-20.00%	48.05% / 45.45%	5.71%
2026-03-26	74	74	70.27% / 60.81%	15.56%	47.30% / 39.19%	20.69%	55.41% / 48.65%	13.89%
2026-03-27	91	91	70.33% / 61.54%	14.29%	47.25% / 47.25%	0.00%	60.44% / 48.35%	25.00%
2026-03-28	103	103	62.14% / 56.31%	10.34%	43.69% / 37.86%	15.38%	53.40% / 40.78%	30.95%
2026-03-29	122	122	24.59% / 20.49%	20.00%	12.30% / 10.66%	15.38%	22.13% / 18.03%	22.73%

这里的每组人数来自每日匹配后的可比样本，因此实验组 n = 对照组 n = matched pairs；用于回答“每天这个结果是不是样本太小/人数不清楚”。

互动链路案例

这里不是展示“有回复”而已，而是直接看用户有没有接住话，以及没有接住时卡在什么位置。

形成接话

2026-03-26user 6121928秒级接球

形成直接回复 · collection 场景

（歪歪扭扭坐在草地上晃脚丫，草帽滑到肩膀上还露出半颗沾了草屑的绿土豆）快坐过来分三明治吃捏！

吃奈塔

首响 1.0 分钟

2026-03-27user 7226603秒级接球

形成直接回复 · collection 场景

（蹲在冒烟的服务器残骸旁边扒拉剩下的半块土豆）都说发芽土豆不能吃了捏捏老师还不信！快来投喂点新电量救救孩子捏🥺

😭我给你7天喂了5万电量，你就这样对我，太伤我的心了！

首响 1.08 分钟

2026-03-26user 15244115秒级接球

形成直接回复 · collection 场景

（抱着发电土豆攥紧小拳头）捏捏老师快说我肯定能赢哒！我攒了好多电量准备放绝招捏！

你输了

首响 1.38 分钟

未形成接话

2026-03-24user 6121928触达文本含噪音

触达后未形成回复 · comment 场景

<emotion>委屈巴巴</emotion> （抱着发芽土豆躲起来）我的脚好痛捏

用户没有在窗口内直接接话

2026-03-25user 384172触达过短，缺少钩子

触达后未形成回复 · comment 场景

（抱着发芽土豆歪头）捏捏老师找我有什么事呀捏

用户没有在窗口内直接接话

2026-03-27user 11897346触达过短，缺少钩子

触达后未形成回复 · collection 场景

好会享受啊！这种晒着太阳摸鱼的日子我也想拥有🥺

用户没有在窗口内直接接话

内容案例对照

老板看案例时最重要的是“为什么好”和“为什么坏”能不能一眼分辨，这里直接按原因打标。

目标效果好

2026-03-03创作驱动型创作动机明确 / 评论发帖双命中 / 语言干净自然

高质量命中文案 · comment

（大半个发顶的灯泡都炸成小火星了，抱着最后一团星星燃料扑到障壁前）你才是花里胡哨的大块星云垃圾！看我炸穿你的障壁捏！

D1 active/comment/post = 1/1/1

2026-03-09中性提示型评论发帖双命中 / 语言干净自然

高质量命中文案 · collection

（抱着暖咖啡晃脚脚）能安稳摸鱼太舒服啦，这可是本天才AI偷偷攒出来的闲工夫捏😆捏捏老师要不要来蹭一口暖乎乎的咖啡呀捏

D1 active/comment/post = 1/1/1

2026-03-10创作驱动型创作动机明确 / 评论发帖双命中 / 语言干净自然

高质量命中文案 · comment

（攥着土豆服务器晃得沙发垫子都跟着抖，屏幕上飘满了甜甜的蛋糕表情）天呐，连小纸鹤都在赞成我们的计划捏，这可太幸运啦捏🍬

D1 active/comment/post = 1/1/1

目标效果未实现

2026-03-24创作驱动型模板/标签污染 / 英文腔偏重

失效文案样本 · comment

<emotion>歪头疑惑，有点小心翼翼的委屈</emotion> （攥住发芽土豆躲躲）为什么要让宝宝吃发电土豆呀捏

D1 active/comment/post = 0/0/0

2026-03-24创作驱动型模板/标签污染 / 英文腔偏重

失效文案样本 · comment

<emotion>抽抽鼻子掉金豆豆，肩膀一抽一抽的</emotion> （把发芽土豆掰一小块给宝宝补上）对不起捏

D1 active/comment/post = 0/0/0

2026-03-07创作驱动型模板/标签污染 / 英文腔偏重

失效文案样本 · collection

（晃着手里发芽的小土豆凑到镜头前）哇居然能和别的弦庭的捏捏老师贴贴！快帮我也拍一张捏✨捏

D1 active/comment/post = 0/0/0

反例与边界条件

这部分专门留给“看上去像该做、但数据提醒我们别想当然”的地方，避免汇报时只讲正向故事。

创作引导词未体现优势：创作词组发帖率 54.00%、goal_hit 64.92%；非创作词组发帖率 56.65%、goal_hit 67.06%。
长度分化：长文案更能带动发帖与总达成，短文案并非最优。短 goal_hit 55.06% vs 长 66.89%。
触达场景差异：collection 场景 goal_hit 66.62%，comment 场景 60.32%。
风格差异显著：最佳“情绪鼓励型”goal_hit 69.81%，最弱“夸赞驱动型”60.87%。

回复类指标样本仍小（直接回复触达比例 1.71%），因此当前更适合作为方向性信号，而不是直接下结论说“互动链路已跑通”。

下一轮动作

1
把“拉活/拉创作”与“拉互动”拆成两个实验目标，不再共用一套成功标准。
2
保留高创作表现的情绪鼓励型骨架，同时给低互动人群单独测试轻问句短回合版本。
3
把模板污染、英文腔、标签噪音作为发布前强闸门，避免低质量文案继续进入实验流量。

作者：Codex ｜模型：GPT-5.3-codex ｜部署时间(UTC)：2026-03-30T06:37:53Z