聊天讨论我让 DeepSeek 假装 24 岁和 45 岁评价同一篇文案，它自己打了自己 3 分

lsraas100(RaaS100) · June 23, 2026 · 27 hits

本站由UCloud倾情赞助

每次写完文案，问朋友说"还行"，问甲方说"再改"，没有人告诉你真正的消费者脑子里在想什么。

后来我习惯先丢给 DeepSeek 打打分，确实比问人快。但用多了发现一个问题：同一个模型，不管我让它演谁，背后都是同一套参数在猜。

我干脆做了个实验。

实验：同一篇文案，两个年龄，两个系统 测试素材是醒醒 WKUP 的气泡茶文案，标题《周五晚上的局，别喝奶茶了》。0 蔗糖、低卡、便利店卖 9.9 元。选它是因为好坏完全取决于你是不是目标用户——年轻人觉得是新场景饮料，中年人觉得是兑了气泡的糖水。

然后我用两条路线分别跑了两组人群：

路线一：DeepSeek 角色扮演。 开两个独立窗口，Prompt 结构完全一样，只替换角色设定。窗口 1 演 24 岁上海潮人，窗口 2 演 45 岁三线城市茶客。

路线二：万智市场测评。一个带万级人设库的 AI 评测引擎，每个人设都有独立的年龄、消费力、审美偏好等十维标签。每个 AI 测试员独立打分后再聚合，相当于一次小规模抽样调研。第一轮筛年轻潮人，第二轮筛熟龄实用人群。

DeepSeek 先上：6 分 vs 3 分，自己打自己脸 24 岁窗口给了 6 分。态度是"轻度种草但不冲动"——文案确实打中了奶茶失眠的痛点，但扣分项很年轻人："像产品说明书""从头到尾没一句能发小红书的种草短句""口味描述干巴巴连风味层次都没有"。

45 岁窗口给了 3 分。原话更扎心：

"剧本杀局、健身房、下午靠饮料提神——都是十几二十岁人的消遣，我下班做饭散步，没代入感。"

"9.9 元？我买一斤好茶能泡两个月。"

坦白说，6 和 3 这个方向是对的——年轻人确实比中年人更可能接受这个产品。但问题是，这两个分数本质上是模型在推测两种人会怎么想，不是真人样本。没有误差范围，没有人告诉你有多少人会点赞、多少人想买。

万智上场：方向一样，精度拉满

跑了 78 个独立 AI 测试员的结果，数据颗粒度完全是另一个级别。

年轻潮人组（11 人）：7.54 分。点赞 81.8%，无人点踩——说明文案方向对。但关键细节：72.7% 的人停留在"先继续了解"，没人转发。换句话说，文案能圈粉但推不动成交，转化链条卡在中间。此外可信度只拿了 6.59 分，连年轻人都对"提神不心悸"这个卖点半信半疑。

熟龄实用组（67 人）：5.33 分。受众适配度直接从 8.09 跌到 3.01——跌幅最大的一项。42.2% 的人点了踩，购买意愿 0%。67 人里 71.9% 看完完全无感，评论高频词是"什么剧本杀局"。注意，不是"文案写得差"，是"这东西跟我没关系"。错位不在质量，在受众。

DeepSeek 告诉你年轻人更喜欢、中年人不感冒。万智告诉你按这个方案投，42% 的人在划走前就会点踩，且没有人会下单。

一个意外的交叉验证 DeepSeek 和万智在两个完全独立的评测链路中，同时标记了同一个问题："提神不心悸"涉嫌违法——普通食品不能宣称保健功效，属于广告法红线。

两条技术路线在同一个雷点上收敛，这比任何单次打分都值得重视。

写在最后

改文案用 DeepSeek。它快，它懂年轻人的语言细节，能告诉你"口味描述干巴巴"这种写作者真正需要的反馈。

定投放方向用万智测评。你需要知道的是 42% 会不会反感、会不会有人转发、转化到底卡在哪一环。这些只有分布数据能给。万智测评已经在 RaaS100 平台上线，提供开箱即用的服务。

不是谁干掉谁。拆螺丝用一把，拧螺母用另一把——工具箱里两把都该有。如果你也在折腾 AI 内容评测，欢迎添加我微信一起聊聊。

No Reply at the moment.

You need to Sign in before reply, if you don't have an account, please Sign up first.