聊天讨论 我让 DeepSeek 假装 24 岁和 45 岁评价同一篇文案,它自己打了自己 3 分

lsraas100(RaaS100) · June 23, 2026 · 27 hits

每次写完文案,问朋友说"还行",问甲方说"再改",没有人告诉你真正的消费者脑子里在想什么。

后来我习惯先丢给 DeepSeek 打打分,确实比问人快。但用多了发现一个问题:同一个模型,不管我让它演谁,背后都是同一套参数在猜。

我干脆做了个实验。

实验:同一篇文案,两个年龄,两个系统 测试素材是醒醒 WKUP 的气泡茶文案,标题《周五晚上的局,别喝奶茶了》。0 蔗糖、低卡、便利店卖 9.9 元。选它是因为好坏完全取决于你是不是目标用户——年轻人觉得是新场景饮料,中年人觉得是兑了气泡的糖水。

然后我用两条路线分别跑了两组人群:

路线一:DeepSeek 角色扮演。 开两个独立窗口,Prompt 结构完全一样,只替换角色设定。窗口 1 演 24 岁上海潮人,窗口 2 演 45 岁三线城市茶客。

路线二:万智市场测评。一个带万级人设库的 AI 评测引擎,每个人设都有独立的年龄、消费力、审美偏好等十维标签。每个 AI 测试员独立打分后再聚合,相当于一次小规模抽样调研。第一轮筛年轻潮人,第二轮筛熟龄实用人群。

DeepSeek 先上:6 分 vs 3 分,自己打自己脸 24 岁窗口给了 6 分。态度是"轻度种草但不冲动"——文案确实打中了奶茶失眠的痛点,但扣分项很年轻人:"像产品说明书""从头到尾没一句能发小红书的种草短句""口味描述干巴巴连风味层次都没有"。

45 岁窗口给了 3 分。原话更扎心:

"剧本杀局、健身房、下午靠饮料提神——都是十几二十岁人的消遣,我下班做饭散步,没代入感。"

"9.9 元?我买一斤好茶能泡两个月。"

坦白说,6 和 3 这个方向是对的——年轻人确实比中年人更可能接受这个产品。但问题是,这两个分数本质上是模型在推测两种人会怎么想,不是真人样本。没有误差范围,没有人告诉你有多少人会点赞、多少人想买。

万智上场:方向一样,精度拉满

跑了 78 个独立 AI 测试员的结果,数据颗粒度完全是另一个级别。

年轻潮人组(11 人):7.54 分。 点赞 81.8%,无人点踩——说明文案方向对。但关键细节:72.7% 的人停留在"先继续了解",没人转发。换句话说,文案能圈粉但推不动成交,转化链条卡在中间。此外可信度只拿了 6.59 分,连年轻人都对"提神不心悸"这个卖点半信半疑。

熟龄实用组(67 人):5.33 分。 受众适配度直接从 8.09 跌到 3.01——跌幅最大的一项。42.2% 的人点了踩,购买意愿 0%。67 人里 71.9% 看完完全无感,评论高频词是"什么剧本杀局"。注意,不是"文案写得差",是"这东西跟我没关系"。错位不在质量,在受众。

DeepSeek 告诉你年轻人更喜欢、中年人不感冒。万智告诉你按这个方案投,42% 的人在划走前就会点踩,且没有人会下单。

一个意外的交叉验证 DeepSeek 和万智在两个完全独立的评测链路中,同时标记了同一个问题:"提神不心悸"涉嫌违法——普通食品不能宣称保健功效,属于广告法红线。

两条技术路线在同一个雷点上收敛,这比任何单次打分都值得重视。

写在最后

改文案用 DeepSeek。它快,它懂年轻人的语言细节,能告诉你"口味描述干巴巴"这种写作者真正需要的反馈。

定投放方向用万智测评。你需要知道的是 42% 会不会反感、会不会有人转发、转化到底卡在哪一环。这些只有分布数据能给。万智测评已经在 RaaS100 平台上线,提供开箱即用的服务。

不是谁干掉谁。拆螺丝用一把,拧螺母用另一把——工具箱里两把都该有。如果你也在折腾 AI 内容评测,欢迎添加我微信一起聊聊。

No Reply at the moment.
You need to Sign in before reply, if you don't have an account, please Sign up first.