<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>lsraas100 (RaaS100)</title>
    <link>http://beta.w2solo.com/lsraas100</link>
    <description></description>
    <language>en-us</language>
    <item>
      <title>Claude Tag 让我重新想了一件事：你的 AI 工具，到底是谁在用？</title>
      <description>&lt;p&gt;Anthropic 把 Claude Code 升级成了 Claude Tag，&lt;strong&gt;定位从"你的编程助手"变成了"整个团队的 AI 队友"。&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;我翻了翻官方的介绍，核心变化就一个：以前的 Claude，你用你的我用我的，俩人对话互不相干。现在的 Claude Tag 是频道共享的，所有人围绕同一个 AI 协作。它有共享上下文、持续记忆，甚至能主动跳出来提醒重要讨论——不需要你每次从零开始给它补背景。&lt;/p&gt;

&lt;p&gt;目前已经上了 Slack，绑定 Opus 4.8，向 Enterprise 和 Team 用户开放 Beta。卡帕西把它定性为"LLM 用户界面第三次重大变革"。&lt;/p&gt;

&lt;p&gt;听起来很好。但我想的是另一件事——&lt;/p&gt;

&lt;p&gt;我一个做独立产品的朋友看完之后说了一句：这东西的前提是你得先有一个稳定、合规、管得住的模型接入通道。不是个人账号蹭个 API，是真能在企业里跑起来的那种。&lt;/p&gt;

&lt;p&gt;他说的没错。Claude Tag 的权限管理做得再细——工具访问控制、频道隔离、Token 预算、审计日志——这一切的前提都是你有一个企业级的底座。出口管制还在、隐私合规悬着、多模型切换成本摆在那。光有一个 API Key 是不够的。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/55d549b6-d767-48f6-aaa8-9973a7180728.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;魔芋 AI 在做这件事：统一接入 Claude、GPT、Gemini 等 200+ 全球模型，智能调度降本约 40%，网关层自带合规保障——权限隔离、敏感信息脱敏、审计日志这些，和 Claude Tag 描述的权限逻辑完全对得上。现在注册&lt;a href="https://www.moyu.info/register?aff=zFsq" rel="nofollow" target="_blank" title=""&gt;魔芋 AI&lt;/a&gt;，即赠百万 Tokens，200+ 大模型任你选择。如果你也感兴趣，&lt;a href="https://work.weixin.qq.com/ca/cawcdec0d53d5d0742" rel="nofollow" target="_blank" title=""&gt;欢迎进群&lt;/a&gt;，我们一起来讨论一下！&lt;/p&gt;

&lt;p&gt;Claude Tag 是好东西，但它描述的未来有一道隐形的门槛。你得先有一个稳定、合规、管得住的模型底座——不是个人 API Key，不是蹭出口管制窗口期的灰色通道，是真能在团队级别安全运转的基础设施。工具会越来越聪明，但底座得你自己搭。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Mon, 29 Jun 2026 11:12:16 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7611</link>
      <guid>http://beta.w2solo.com/topics/7611</guid>
    </item>
    <item>
      <title>黄仁勋说 Prompt 已死，我试了一下，内容评测确实不该再写 Prompt 了</title>
      <description>&lt;p&gt;上周看到黄仁勋那句&lt;strong&gt;"Nobody writes prompts anymore. The new job is to write and handle loops"&lt;/strong&gt;，我愣了几秒。&lt;/p&gt;

&lt;p&gt;Loop 是什么？就是你不再亲手给 AI 下指令，而是设计一套机制，让它自己跑、自己验、不合格自己重来。你的角色从"写指令的人"变成"设计规则的人"。&lt;/p&gt;

&lt;p&gt;Claude Code 之父 Boris Cherny 更夸张——据说卸载了 IDE，手下几百个小 Agent 自己跑，搞不定的才进他收件箱。&lt;/p&gt;

&lt;p&gt;然后我想到了自己做内容评测的经历。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;以前我是这么干的&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;打开 ChatGPT，写："假装你是 24 岁年轻人，评价这篇文案，打 1-10 分。"&lt;/p&gt;

&lt;p&gt;AI 回一句"这篇文案还不错，我给 7 分"。&lt;/p&gt;

&lt;p&gt;换个角度再问，"假装你是 45 岁中年人"，他给 3 分。&lt;/p&gt;

&lt;p&gt;一轮一轮聊，人全程盯着。一天下来脖子酸，产出就几个分数。&lt;/p&gt;

&lt;p&gt;这不就是卡帕西吐槽的："人就是瓶颈。"&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;后来我发现了一件事&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;评测这件事和编程是一样的——不该是一个 Prompt 一个 Prompt 地聊。&lt;/p&gt;

&lt;p&gt;你想想 Loop 最精妙的原则是什么：拆卷子和判卷子不能是同一个人。 Claude Code 的做法是大模型写代码，另一个独立小模型负责验收。&lt;/p&gt;

&lt;p&gt;那评测呢？你让 ChatGPT 既当创作者又当裁判，它怎么判都是 7 分——因为它在判自己的审美。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/ac604178-1488-4a1c-8345-1e1d3917f559.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;RaaS100 万智测评&lt;/strong&gt;就在做这个。你不再写"假装你是 XX 人群评价这篇文案"。你只定义两件事——测谁、测什么。然后系统启动 N 个独立 AI 测试员（万级人设库，每个带年龄、城市、消费力等标签），各自独立打分后聚合分布。你直接看报告。如果你也对此感兴趣，欢迎&lt;a href="https://work.weixin.qq.com/ca/cawcdec0d53d5d0742" rel="nofollow" target="_blank" title=""&gt;添加我微信&lt;/a&gt;，我们一起来聊聊。&lt;/p&gt;

&lt;p&gt;拆卷子和判卷子天然分开。不是"一个模型假装不同人"，是独立子智能体各自判断。&lt;/p&gt;

&lt;p&gt;人和 AI 的分工变了：你只做规则设计，系统替你跑完整条评测回路。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Loop 是所有 AI 工作流的下一站&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;从 Prompt → Context → Harness → Loop，四次范式跃迁写的是同一件事：你对 AI 的掌控粒度在往上走，从"写一句话"变成"搭一个能自己转的系统"。&lt;/p&gt;

&lt;p&gt;学术上姚顺雨 2022 年的 ReAct 早就揭示了——AI 不该一次性输出，该是思考→行动→观察→再思考的循环。&lt;/p&gt;

&lt;p&gt;少写一条 Prompt 问模型"你觉得怎么样"，多想想怎么搭评测回路。这才是 Loop 时代的正确用法。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Fri, 26 Jun 2026 10:54:11 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7595</link>
      <guid>http://beta.w2solo.com/topics/7595</guid>
    </item>
    <item>
      <title>企微大圆三天实测：客户终于不用愁了，但我发现自己同时在给四个 AI 交月费</title>
      <description>&lt;p&gt;我做独立开发，客户沟通全在企业微信上。三个项目并行跑的时候，每天光是翻聊天记录确认"这个需求上次聊到哪了"就要花掉小半个上午。&lt;/p&gt;

&lt;p&gt;所以大圆开始内测那天，我第一时间申请了。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;左滑，它就出来了&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;大圆的交互很轻。没有独立 App，没有独立窗口。你在企微的消息页往左一滑，它就弹出来。&lt;/p&gt;

&lt;p&gt;本质上它是嵌在工作流里的，不是等着你去"打开"它的。这个设计跟它定位是匹配的——腾讯公关总监张军原话是"长在企业微信工作流里"的 AI 助理。它读取群聊、文档、会议、日程这些企业内的数据，结合场景给回复，不是通用聊天那一套。&lt;/p&gt;

&lt;p&gt;灰度中的「服务总结」是我觉得最实用的功能。它自动从跟客户的沟通里提炼出需求、成交意向、卡点，然后定时推一个跟进建议过来。我试了几天后发现一个细节：它推的建议不是泛泛的"这个客户很重要请跟进"，而是具体到"上次聊到价格方案 B，对方卡在交付周期，下次聊建议从这个点切入"。&lt;/p&gt;

&lt;p&gt;这个颗粒度，对我来说已经能替代掉一大半手动整理客户信息的时间了。&lt;/p&gt;

&lt;p&gt;另一个我比较在意的点是 AI 智能表格：客户群和客户信息自动沉淀进去，AI 能总结跟进情况、生成数据分析仪表盘。对于像我这样一个人管十几个客户、没有专职销售运营的独立开发者来说，以前这些事纯靠 Excel 和脑子记，丢了就是丢了。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/5fe2024c-a234-4c07-8169-295f894c2fc4.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;省下来的时间，我发现还是不够用&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;用了三天，纯粹从客户管理这个场景看，大圆确实把事做透了。问题出在客户管理之外。&lt;/p&gt;

&lt;p&gt;我的日常是这样的：早上用大圆处理客户跟进，上午可能要用某个 AI 工具出产品原型图，下午另外一个工具写技术方案，晚上可能还要用第三个工具做竞品分析。&lt;/p&gt;

&lt;p&gt;大圆管了客户沟通这一环，但其他环节的 AI 工具仍然各自为政。三四个工具三四个后台，账号不互通，用量单独算。最离谱的是上周我发现自己同时在给两个 AI 工具付月费，其中一个我都不记得上次打开是什么时候了。&lt;/p&gt;

&lt;p&gt;这不是大圆的问题。这是 AI 产品目前的普遍状况：每个工具都把垂直场景做到很深，但跨场景的那一层，没人搭。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;独立开发者最难受的，不是工具太少&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;是工具多了之后，管理成本开始反噬效率。&lt;/p&gt;

&lt;p&gt;我算了一笔账：现在市场上好用的 AI 工具，大部分都走的是"注册即用"的轻量化路线。这本身是好事，门槛低。但当你同时在用四五个的时候，你会发现你在管理四个账单、四套身份认证、四个数据安全边界。这些东西本身不产生任何价值，但你必须花时间处理。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/7f172a1f-d18e-4b10-8d60-0e0e8e28713d.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;&lt;a href="https://www.moyu.info/register?aff=zFsq" rel="nofollow" target="_blank" title=""&gt;魔芋 AI &lt;/a&gt; 的逻辑刚好反过来——不是再做一款 AI 工具，是把国内外主流的模型 API 聚合到一个接口里。一个 Key 调所有模型，不用每家单独申请、单独付费。&lt;/p&gt;

&lt;p&gt;对独立开发者来说最直接的好处就一个：以前同时供着四五个 AI 工具的月费，现在一个账号预充值，按实际消耗扣，用了多少清清楚楚。不用再每月对着账单纠结"这个是不是该停了"。&lt;/p&gt;

&lt;p&gt;对我来说最直接的好处就一个：不用再每月对着账单琢磨"这个工具我是不是该停了"。用一个账号进来，所有工具按实际用量算，用了多少扣多少，没用的不花钱。&lt;/p&gt;

&lt;p&gt;这个思路本身不复杂。但独立开发者大概都懂一个道理：维护成本比付费成本更致命。一个月几十块的订阅不是问题，问题是你得记得它、管着它、怀疑它值不值。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Thu, 25 Jun 2026 14:30:07 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7591</link>
      <guid>http://beta.w2solo.com/topics/7591</guid>
    </item>
    <item>
      <title>我让 DeepSeek 假装 24 岁和 45 岁评价同一篇文案，它自己打了自己 3 分</title>
      <description>&lt;p&gt;每次写完文案，问朋友说"还行"，问甲方说"再改"，没有人告诉你真正的消费者脑子里在想什么。&lt;/p&gt;

&lt;p&gt;后来我习惯先丢给 DeepSeek 打打分，确实比问人快。但用多了发现一个问题：同一个模型，不管我让它演谁，背后都是同一套参数在猜。&lt;/p&gt;

&lt;p&gt;我干脆做了个实验。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;实验：同一篇文案，两个年龄，两个系统&lt;/strong&gt;
测试素材是醒醒 WKUP 的气泡茶文案，标题《周五晚上的局，别喝奶茶了》。0 蔗糖、低卡、便利店卖 9.9 元。选它是因为好坏完全取决于你是不是目标用户——年轻人觉得是新场景饮料，中年人觉得是兑了气泡的糖水。&lt;/p&gt;

&lt;p&gt;然后我用两条路线分别跑了两组人群：&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;路线一：DeepSeek 角色扮演。&lt;/strong&gt; 开两个独立窗口，Prompt 结构完全一样，只替换角色设定。窗口 1 演 24 岁上海潮人，窗口 2 演 45 岁三线城市茶客。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;路线二：万智市场测评。&lt;/strong&gt;一个带万级人设库的 AI 评测引擎，每个人设都有独立的年龄、消费力、审美偏好等十维标签。每个 AI 测试员独立打分后再聚合，相当于一次小规模抽样调研。第一轮筛年轻潮人，第二轮筛熟龄实用人群。&lt;/p&gt;

&lt;p&gt;DeepSeek 先上：6 分 vs 3 分，自己打自己脸
24 岁窗口给了 6 分。态度是"轻度种草但不冲动"——文案确实打中了奶茶失眠的痛点，但扣分项很年轻人："像产品说明书""从头到尾没一句能发小红书的种草短句""口味描述干巴巴连风味层次都没有"。&lt;/p&gt;

&lt;p&gt;45 岁窗口给了 3 分。原话更扎心：&lt;/p&gt;

&lt;p&gt;"剧本杀局、健身房、下午靠饮料提神——都是十几二十岁人的消遣，我下班做饭散步，没代入感。"&lt;/p&gt;

&lt;p&gt;"9.9 元？我买一斤好茶能泡两个月。"&lt;/p&gt;

&lt;p&gt;坦白说，6 和 3 这个方向是对的——年轻人确实比中年人更可能接受这个产品。但问题是，这两个分数本质上是模型在推测两种人会怎么想，不是真人样本。没有误差范围，没有人告诉你有多少人会点赞、多少人想买。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;万智上场：方向一样，精度拉满&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;跑了 78 个独立 AI 测试员的结果，数据颗粒度完全是另一个级别。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/5f6d8f77-0f8b-45c0-8293-6ad72c974dde.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;年轻潮人组（11 人）：7.54 分。 点赞 81.8%，无人点踩——说明文案方向对。但关键细节：72.7% 的人停留在"先继续了解"，没人转发。换句话说，文案能圈粉但推不动成交，转化链条卡在中间。此外可信度只拿了 6.59 分，连年轻人都对"提神不心悸"这个卖点半信半疑。&lt;/p&gt;

&lt;p&gt;熟龄实用组（67 人）：5.33 分。 受众适配度直接从 8.09 跌到 3.01——跌幅最大的一项。42.2% 的人点了踩，购买意愿 0%。67 人里 71.9% 看完完全无感，评论高频词是"什么剧本杀局"。注意，不是"文案写得差"，是"这东西跟我没关系"。错位不在质量，在受众。&lt;/p&gt;

&lt;p&gt;DeepSeek 告诉你年轻人更喜欢、中年人不感冒。万智告诉你按这个方案投，42% 的人在划走前就会点踩，且没有人会下单。&lt;/p&gt;

&lt;p&gt;一个意外的交叉验证
DeepSeek 和万智在两个完全独立的评测链路中，同时标记了同一个问题："提神不心悸"涉嫌违法——普通食品不能宣称保健功效，属于广告法红线。&lt;/p&gt;

&lt;p&gt;两条技术路线在同一个雷点上收敛，这比任何单次打分都值得重视。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;写在最后&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;改文案用 DeepSeek。它快，它懂年轻人的语言细节，能告诉你"口味描述干巴巴"这种写作者真正需要的反馈。&lt;/p&gt;

&lt;p&gt;定投放方向用万智测评。你需要知道的是 42% 会不会反感、会不会有人转发、转化到底卡在哪一环。这些只有分布数据能给。万智测评已经在 RaaS100 平台上线，提供开箱即用的服务。&lt;/p&gt;

&lt;p&gt;不是谁干掉谁。拆螺丝用一把，拧螺母用另一把——工具箱里两把都该有。如果你也在折腾 AI 内容评测，欢迎&lt;a href="https://work.weixin.qq.com/ca/cawcdec0d53d5d0742" rel="nofollow" target="_blank" title=""&gt;添加我微信&lt;/a&gt;一起聊聊。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Tue, 23 Jun 2026 11:28:17 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7581</link>
      <guid>http://beta.w2solo.com/topics/7581</guid>
    </item>
    <item>
      <title>同一张图，ChatGPT 说"很有生活感"打了 8 分，38 个 AI 测试员看完直接划走了</title>
      <description>&lt;p&gt;这事说起来挺荒唐的。我写了条外卖省钱的抖音口播脚本，顺手让 AI 生成了一张封面图。先丢给 ChatGPT，它看图之后说"画面生活感强，容易建立信任"，把完播率从 7.5 调高到了 8 分。我又原封不动丢给一个能同时读脚本和看画面的 AI 评测引擎，跑了 38 个虚拟用户——23.7% 的人因为"AI 水印和英文界面"直接弃剧。同一个文件，一个人工智能说真实，另一群人工智能说虚假。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;一、先唠叨一下我为什么做这个测试&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;两年前我帮一个博主朋友写抖音脚本，他每次都是拍完丢上去等结果。"拍一条发出去就是测试，成本也就几十块嘛，"他说。&lt;/p&gt;

&lt;p&gt;现在一个小团队拍一条口播，从脚本到拍摄到剪辑，少说两小时。一条信息流素材做出来，投五百块钱没量，你再投五百还是没量，沉没的就是真金白银和时间。但你真的舍得为了测一条素材，去做五组 AB 测试、请 200 个人做问卷调查吗？没人舍得。&lt;/p&gt;

&lt;p&gt;所以我一直在琢磨一个方向：能不能在素材拍出来之前，用 AI 先做一次"预投放"？ 也就是让一批虚拟用户提前看完你的脚本和画面，告诉你他们会点赞、转发还是划走。&lt;/p&gt;

&lt;p&gt;踩到一个产品叫&lt;strong&gt;万智市场测评&lt;/strong&gt;，&lt;strong&gt;RaaS100 平台&lt;/strong&gt;的。它的逻辑挺有意思——不是让你跟一个大模型聊天让它评价你的素材，而是在后台起一堆独立的子智能体，每个都带不同的人设、偏见和偏好，让它们同时看你的内容，然后把所有人的反应汇总成统计数据。&lt;/p&gt;

&lt;p&gt;我拿了一条外卖省钱的口播脚本加一张配套封面图，做了三轮测试：&lt;/p&gt;

&lt;p&gt;第一轮，只把脚本丢给 ChatGPT-5.4，让它以短视频专家的身份评价。第二轮，把图也拖进去，看看它的评分会不会变。第三轮，同样的脚本加图丢进万智，跑了标准模式。&lt;/p&gt;

&lt;p&gt;三轮跑完，我发现一个让我觉得这件事值得写下来的对比。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;二、我的素材长什么样&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;脚本很简单，一个叫"饭总教你省钱"的抖音号，主题是揭露外卖软件排序的逻辑陷阱。开头三秒是"你先打开你的外卖软件，随便搜一个东西——"，中间讲前几个搜索结果不一定是最好吃的也不一定是最近的，只是交了广告费，然后给出具体操作：往下滑到第六七个，找评分 4.3 左右、月销超过一千单的老店。结尾是"转发给你那个天天被外卖坑的闺蜜"。&lt;/p&gt;

&lt;p&gt;配套配图是用 AI 生成的一张画面：人物手持手机展示外卖 App 界面，居家厨房背景。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/be98e6dc-f7cb-4652-ab9a-9af056e8baa6.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;三、ChatGPT 的表现：看图前和看图后，它都挺乐观&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;只读脚本的时候，ChatGPT 给了三个维度的判断。完播率预判 7.5 分，说开头钩子有效、结构清晰、理解门槛低。传播力 7 分，说话题普适但缺少金句和争议点。转化力 6.5 分，说结尾关注引导偏常规，没有非关注不可的理由。总评是"一条合格的实用型短视频脚本，能看完但不太容易爆"——这个结论和我自己的直觉差不多，中规中矩。&lt;/p&gt;

&lt;p&gt;然后我把配图拖进去。ChatGPT 看完图之后说了这么一段话，我到现在还记得：&lt;/p&gt;

&lt;p&gt;"这张参考图传达的信息很明确：真人出镜、手持手机展示外卖 App 页面、居家厨房场景、整体偏生活化、可信感、口播博主风。画面和文案是匹配的。生活感强，容易建立信任——会比纯截图、纯录屏更像真实经验分享。"&lt;/p&gt;

&lt;p&gt;然后它主动把分数调高了。完播率从 7.5 拉到 8 分，传播力从 7 拉到 7.2，转化力从 6.5 拉到 6.8。ChatGPT 的最终结论是：有了真人手持手机的视觉呈现以后，画面更贴近用户实际使用场景，增强了停留和信任。&lt;/p&gt;

&lt;p&gt;我看到这里的时候，说实话，我挺踏实的。一条脚本被大模型打了三次分，每次都稳中有升，怎么看都不像是会翻车的样子。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;四、万智测评的结果：同一张图，判了"制作不合格"&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;万智跑了 38 个数字受访者。为什么只有 38 个？因为我选的人群条件叠得比较细——20 到 35 岁、低中消费力、享乐加社交型性格、接地气加潮流花哨审美、冲动型决策、主动分享——多层交叉筛选之后库里匹配的人设就剩这么些。数量虽小，但每个都是精准匹配目标受众的。&lt;/p&gt;

&lt;p&gt;总分和定性
综合分 6.02 分，满分 10。等级判定措辞干脆利落——"待改进，需优化制作"。不是改进内容，是改进制作。&lt;/p&gt;

&lt;p&gt;内容层和制作层的分数撕裂
万智对短剧类素材拆了 14 个维度打分。我从来没在一个评测工具里见过这种大卸八块式的拆法，但拆完之后分数分布确实暴露了最核心的问题。&lt;/p&gt;

&lt;p&gt;内容相关的维度全线飘高：口播信息层 7.86 分，转化潜力 7.36 分，完播率预判 7.05 分，节奏把控 6.96 分。这说明我的脚本本身没有问题，甚至可以说相当扎实——用户看完之后觉得信息有价值、有转发的冲动。&lt;/p&gt;

&lt;p&gt;但制作相关的维度，分数惨不忍睹。画面质感 4.74 分，特效包装更是低到 3.70 分，服化道美术 4.97 分，镜头叙事 5.36 分。内容层和制作层的分数差了将近一倍。短视频行业有个说法叫"好本子拍烂了"——这就是标准样本。&lt;/p&gt;

&lt;p&gt;这个问题，ChatGPT 一个字都没提。不是它不想提，是它看同一张图的时候，视角和普通观众完全不同。&lt;/p&gt;

&lt;p&gt;最扎心的对比：它说"生活感强"，他们说"AI 水印太假"
ChatGPT 对画面的核心判词是"生活感强""容易建立信任""更像真实经验分享"。&lt;/p&gt;

&lt;p&gt;万智测评报告里用户弃剧的原因写着："多人明确因 AI 水印、英文界面等制作问题流失。制作真实感风险突出——若持续存在，可能引发更大范围信任危机，尤其影响女性及一线用户。"&lt;/p&gt;

&lt;p&gt;同样一张图。一个评价体系说它像真的，另一个评价体系说它一眼假。&lt;/p&gt;

&lt;p&gt;仔细想这背后的原因，不是 ChatGPT 的图识别能力差——GPT-5.4 的视觉识别非常准，它清楚画面里有人物、有手机、有外卖界面、有厨房背景。问题是它不会像真人那样，对"AI 生成痕迹"产生本能级的反感。一个中文外卖省钱的博主，配图里的 App 界面是英文的，图片上还有 AI 水印——任何一个刷抖音的中国人看到这个画面，脑子里蹦出的第一个词就是"假的"。ChatGPT 识别到了这些元素，但它没有"这不对劲"的直觉。因为它从来不是一个人，它天生不会挑剔。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;五、两条评测体系，本质上是两个物种&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;对比到这里，我自己总结了一个框架。&lt;/p&gt;

&lt;p&gt;做一个评测，你需要回答三个问题：这个人喜不喜欢？哪些人喜欢哪些人不喜欢？改完之后会不会变好？&lt;/p&gt;

&lt;p&gt;ChatGPT 回答了第一个问题，但用的方式是一个温和的、有文学素养的主观判断。万智回答了三个问题中的两个，而且全部是用百分比和量化预期来回答的。&lt;/p&gt;

&lt;p&gt;具体来说，两者在同一个素材上的判断出现了四个关键分歧。&lt;/p&gt;

&lt;p&gt;第一个分歧在制作质量上。ChatGPT 认为画面增加了可信度，把分数往上调。万智的 38 个测试者认为画面是最大的减分项——AI 水印、英文界面、杂乱背景，直接导致将近四分之一的人弃剧。&lt;/p&gt;

&lt;p&gt;第二个分歧在传播力上。ChatGPT 的判断是实用收藏型，不太容易爆。万智的数据是 94.7% 分享率，已经是爆款临界点。ChatGPT 漏判了一个关键的社交传播锚点——"转发给闺蜜"这句话的杠杆效应。&lt;/p&gt;

&lt;p&gt;第三个分歧在优化优先级上。ChatGPT 的建议全在内容层——要加强损失感、要加对比证据、要更冲击的开头。万智的第一条建议却是：先把画面换成真实录屏、去掉 AI 水印、确保是中文界面。优先级完全不同。ChatGPT 是想到什么说什么，万智是按致命程度排了序的。&lt;/p&gt;

&lt;p&gt;第四个分歧在量化能力上。万智的每条建议都带了预期效果——比如"替换真实录屏后预计降低弃剧率至少 10 个百分点，提升女性及一线用户评分 0.5 到 1 分"。ChatGPT 的建议也合理，但"增强被坑损失感"做完之后到底能提升多少，没人知道。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;六、写在最后&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;ChatGPT 能看图，而且看得挺准——它能准确描述画面内容，给出结构化的视觉分析，甚至提供拍摄优化建议。但它看不来"真不真"。&lt;/p&gt;

&lt;p&gt;这不是技术问题。GPT-5.4 多模态识别的准确度没什么可质疑的。问题出在它的底层设定上：它会善意地解读所有输入，而不是像真人那样带着偏见和挑剔去看。一张有 AI 水印的图，你发给任何一个抖音用户，对方三秒钟就会划走。但你发给 ChatGPT，它会先夸你的构图、光线、场景感，然后礼貌地问你要不要听听封面文案的优化建议。&lt;/p&gt;

&lt;p&gt;多智能体评测和单模型评测的区别就在这里。万智背后的几十个子智能体，每一个都被灌了不同的"偏见设定"——有人挑剔、有人严苛、有人看见英文界面就会本能觉得这不是给我看的内容。它们不是更聪明，它们只是更像人。ChatGPT 永远在用同一个声音说话，那个声音天生不会批评，天生不会嫌弃，天生不会说"你这图太假了我不看"。&lt;/p&gt;

&lt;p&gt;所以结论不是"大模型不能做评测"，而是"&lt;strong&gt;只靠一个大模型做评测，你的判断会被一只特别宽容的眼睛过滤一遍&lt;/strong&gt;"。如果你只需要一个改稿建议，聊天就够了。如果你需要知道这条内容发出去之后会发生什么——你需要不止一双眼睛。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/b93ef077-fd71-459e-a87f-c985c905d359.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;本次测试使用的「&lt;strong&gt;万智测评&lt;/strong&gt;」来自 RaaS100 平台。该平台目前还集成了&lt;strong&gt;头脑风暴智能体、KyDI 数字员工、图然 Turan AI&lt;/strong&gt;等多个 AI 产品模块，且正在推进开发者招募计划，提供免费算力、超十万资金扶持等资源助力你的想法落地。&lt;/p&gt;

&lt;p&gt;对 &lt;strong&gt;RaaS100 平台&lt;/strong&gt;感兴趣、想进一步了解&lt;strong&gt;开发者计划或体验万智测评&lt;/strong&gt;的朋友，欢迎&lt;a href="https://work.weixin.qq.com/ca/cawcdec0d53d5d0742" rel="nofollow" target="_blank" title=""&gt;添加我微信&lt;/a&gt;交流。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Tue, 16 Jun 2026 13:53:24 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7550</link>
      <guid>http://beta.w2solo.com/topics/7550</guid>
    </item>
    <item>
      <title>试完千问那个高考志愿 Agent，我算了算一个人能不能搞</title>
      <description>&lt;p&gt;前几天千问出了个高考志愿填报的 Agent，免费的。我去用了一圈，发现做得比想的扎实——不是套壳聊天，背后是一个完整的表单，然后推荐，最后生成报告的产品链路，接了 39 个工具、3000 所学校的数据。&lt;/p&gt;

&lt;p&gt;用完回来我就在琢磨一个问题：&lt;strong&gt;如果我一个人，能不能搞一个类似的东西？&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;先拆一下这东西里面有什么。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/5bfc1028-43dd-496e-aa40-3bc34e5fd382.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;表面上就三步：用户填表、点一下、出结果。底下其实有五层东西——收集用户画像、查数据库、做匹配推荐、调各种外部工具、渲染成表格和 PDF。这五层单独看都不算高难度，但串成一条不塌的链子，就不是一两天的事了。&lt;/p&gt;

&lt;p&gt;如果一个人从零干：&lt;/p&gt;

&lt;p&gt;先要搞定&lt;strong&gt;模型调用&lt;/strong&gt;。不同环节用的模型不一样，收集信息、做推荐、生成报告，背后可能是不同模型在跑。你得接好几个 API，每个都有自己的格式、限速、收费方式。一个人搞这些对接，光是看文档、处理边界就得花不少时间。&lt;/p&gt;

&lt;p&gt;然后是&lt;strong&gt;数据&lt;/strong&gt;。几千所学校、两千个专业的历史信息，来源分散，格式不统一。真正的难点不是"拉数据"，是持续更新和质量校验。一个人维护这套数据管线，工作量不小。&lt;/p&gt;

&lt;p&gt;&lt;img src="https://img.way2solo.com/photo/lsraas100/1b5c29be-3c75-4b26-97ec-c01061b70ca9.png?imageView2/2/w/1920/q/100" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;再往后是&lt;strong&gt;推荐逻辑&lt;/strong&gt;。用户填的信息五花八门，怎么匹配学校、怎么处理极端情况、怎么在多轮交互里不把人问烦——需要反复试、反复调。&lt;/p&gt;

&lt;p&gt;说实话一个人搞一个能用的版本，保守两个月起步。而且只是"能用"——离好用还有不小距离。&lt;/p&gt;

&lt;p&gt;不过话说回来，独立开发者做东西本来就不是从零垒砖。多模型调度现在有&lt;a href="https://www.moyu.info/register?aff=zFsq" rel="nofollow" target="_blank" title=""&gt;魔芋 AI&lt;/a&gt;帮你把 API 接好了。Agent 框架里的通用模块——对话管理、工具调用、结果渲染——&lt;strong&gt;RaaS100&lt;/strong&gt;平台也封装得差不多了。一个人要做的事情其实没那么多，真正需要你投入的，是你那个细分领域的理解和交互设计。如果你也感兴趣，&lt;a href="https://work.weixin.qq.com/ca/cawcdec0d53d5d0742" rel="nofollow" target="_blank" title=""&gt;迎添加我微信&lt;/a&gt;！&lt;/p&gt;

&lt;p&gt;试完千问这个 Agent，我最大的感受是：模型本身已经不是瓶颈了。真正的功夫在怎么把模型、数据、体验串成一条线。而这条线上，能用的轮子就用，时间和精力花在别人替代不了的地方。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Fri, 12 Jun 2026 16:55:04 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7530</link>
      <guid>http://beta.w2solo.com/topics/7530</guid>
    </item>
    <item>
      <title>微信右滑调 AI，普通开发者的变现窗口开了？</title>
      <description>&lt;p&gt;简单来说，以后用户在微信里说句话，就能直接下单、叫服务。这对我们搞独立产品的人来说，意味着什么？&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;一、流量入口变了，分发逻辑也得跟着变&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;以前做产品，流量靠 SEO、靠应用商店、靠投流。现在呢？AI Agent 成了新入口。&lt;/p&gt;

&lt;p&gt;用户的交互方式从"搜索 + 点击"变成了"自然语言对话"，服务的分发从"应用商店排名"变成了"Agent 调用链路"。实际上，现在是谁能把自己的工具或者服务塞进 Agent 的调用列表里，谁就能吃到新一波的流量。大厂在抢入口，但入口里的"内容"得有人填。这就是咱们开发者的机会。📈&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;二、A2A 协议背后，是独立开发者的"轻资产"玩法&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;这次合作的技术底座是 A2A（Agent-to-Agent），意思就是让不同平台的智能体能互相调用能力。&lt;/p&gt;

&lt;p&gt;对独立开发者来说，这其实是个好消息：&lt;/p&gt;

&lt;p&gt;你不需要自己搞流量，只要你的 Agent 能解决某个具体问题，就会被其他平台的智能体调用。垂类场景的 Agent 会大量缺位，教育、医疗、法律、设计、运维……大厂不可能全部自己做。早期接入的开发者，或许就能拿到平台的流量倾斜和技术扶持。&lt;/p&gt;

&lt;p&gt;但别高兴太早，落地还有两道坎。👇&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;三、低成本试错：怎么把产品跑起来？&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;第一道坎就是模型成本。做 Agent 得接大模型吧，前期烧钱是绕不开的问题。&lt;a href="https://www.moyu.info/register?aff=zFsq" rel="nofollow" target="_blank" title=""&gt;魔芋 AI&lt;/a&gt;把主流模型打包接好，一个接口全搞定，前期试错能省不少钱。&lt;/p&gt;

&lt;p&gt;回头看互联网这几年的事，每次平台开放生态，最早进场的那批人往往吃到了最大红利。微信公众号早期、小程序早期、抖音开放平台早期，都是这样。现在微信 AI 生态刚开门，京东、美团等大厂正在搭 Agent 生态框架。这个阶段进场，竞争不大，平台扶持力度也最足。可以看看&lt;strong&gt;RaaS100 平台&lt;/strong&gt;推出的开发者招募计划，免费算力起步，免费课程和超大平台给你铺路，超十万资金助你落地，一站式帮你把技术变成能赚钱的产品。&lt;a href="https://work.weixin.qq.com/ca/cawcdec0d53d5d0742" rel="nofollow" target="_blank" title=""&gt;欢迎添加我微信&lt;/a&gt;，我们一起来聊聊怎么把想法变现。&lt;/p&gt;

&lt;p&gt;真正的机会不是"等微信 AI 完全成熟再做"，而是现在就把自己的 Agent 做出来、上架好，等流量来的时候你已经在位了。先跑起来，边做边调。手里有技术、有想法的话，现在就是最好的时机。&lt;/p&gt;</description>
      <author>lsraas100</author>
      <pubDate>Thu, 11 Jun 2026 15:34:51 +0800</pubDate>
      <link>http://beta.w2solo.com/topics/7522</link>
      <guid>http://beta.w2solo.com/topics/7522</guid>
    </item>
  </channel>
</rss>
