双鸭山pvc排水管专用胶水 Sonnet 4.6 :Anthropic 卷的模型,不惜“逼死”自Opus

在近的模型混战中,不只是厂商们在卷双鸭山pvc排水管专用胶水,Anthropic 也在半个月连续发布了两款模型。而其中,近发布的 Sonnet 4.6 有些特殊,它不是旗舰,却在多个维度追平甚至过了旗舰。看起来它用 Opus 1/3 的价格,就追上了它 99 的能。
在这个各模型都要干掉 Opus 的时刻,它自己用价比款的 Sonnet "干掉" Opus,给各位演示了下,什么才是卷的模型。
而且,这款模型非常值得关注的地是,它让 AI 操作电脑这件事次接近了"真的能用"的临界点。而恰好在同个月,个叫 OpenClaw 的开源项目用 17 万 GitHub 星标证明了件事,人手个的,能替自己干活的 AI Agent,可能成为个新的趋势。Sonnet 4.6 是模型,OpenClaw 是框架,但它们指向同个向。
便宜的再次赢了贵的
在 Anthropic 的产品线中,Opus 是强贵的旗舰,Sonnet 是平衡能和成本的中端款,Haiku 是快便宜的轻量款。长期以来,Sonnet 的角是"价比之选",干不了难的活但胜在便宜。Sonnet 4.6 破了这个格局。
编码面,它在 SWE-bench Verified 上得分 79.6,逼近 Opus 4.6 的 80.8。Claude Code 的内部测试中,用户 70 的时间偏好 Sonnet 4.6(对比 Sonnet 4.5),甚至有 59 的时间比去年 11 月发布的旗舰 Opus 4.5 受欢迎。用户反馈集中在几个面,"少过度工程""少偷懒""指令遵循明显好",以及少出现"明明没干完却说干完了"的情况。
办公任务是大的惊喜。在 GDPval-AA 这个衡量真实办公场景的评测中,Sonnet 4.6 拿到 1633 Elo,直接过了 Opus 4.6 的 1606。便宜的在实际工作场景中赢了贵的。类似的事正在行业里反生,Google 的 Gemini 3 Flash 也在逼近 Pro 的表现,DeepSeek 用远低于美国公司的成本训练出竞争力相当的模型。"低端逆袭端"已经不再是新闻,而是 2026 年 AI 行业的结构趋势。
不过立 AI 评测机构 Artificial Analysis 注意到了个有意思的细节,Sonnet 4.6 在 GDPval-AA 上使用的 token 数量是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出,某些任务的总成本可能比 Opus 还。这和价格表上的数字讲的是两个故事。
软件工程师、AI 技术博主 Joe Njenga 在 Medium 上时间做了测试,他的感受是,"发布才几天,但 Sonnet 4.6 已经感觉比 Opus 好用了。" Cosmic 平台做了个控制实验,用相同的句话提示词让 4.5 和 4.6 各生成个博客应用,结论是 4.6 在设计品味和代码架构上有质的提升,"需要少的手把手指"。编程工具 Kilo Code 直接把 Sonnet 4.6 设为默认荐模型。当然也有负面声音,发布当天就有用户报告了函数名幻觉的问题。
价格跟上代 Sonnet 4.5 样,每百万输入 token 3 美元,输出 token 15 美元。同时它成了 Free 和 Pro 用户的默认模型,费用户还新增了文件创建、skills 等。但正如上面提到的,"同样的钱买到强的模型"不等于"用 AI 便宜了"。Extended thinking 的 token 按输出价格计费,过 200K 的长上下文有额外溢价,而 Agent 场景下动辄成千上万次工具调用,实际使用成本可能反而在增加。
16 个月,Computer Use 从玩具变工具
Sonnet 4.6 还有个值得单拿出来说的进步,就是 Computer Use,也就是 AI 操作电脑的能力。
2024 年 10 月,Anthropic 是个出通用计机操作 AI 的公司。当时他们自己都承认这个"还很实验,有时笨拙且容易出错",发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9。能做的事很有限,移动鼠标、点击按钮、输入文字,基本是个勉强能用的遥控器。
之后的每代 Sonnet 都在这个维度上进步。到了 2025 年 9 月的 Sonnet 4.5,成绩已经大幅提升。但 Sonnet 4.6 才是真正让这项能力从"技术 demo "走向"可用工具"的节点。在 OSWorld-Verified 上,它拿到 72.5,几乎追平 Opus 4.6 的 72.7,比 16 个月前的起点提升了近 5 倍。
数字背后对应的是质的变化。早期用户报告说,Sonnet 4.6 在操作复杂电子表格、填写多步骤网页表单面已接近人类水平,而且能跨多个浏览器标签页协同完成任务。在保险行业的基准测试中,Computer Use 拿到 94 的准确率,是他们测试过的所有模型中的。关键的个改进是可靠,在他们内部的浏览器自动化场景中,Sonnet 4.6 产生的幻觉链接数量为,而此前的版本大约三个链接中就有个是假的。
Claude Sonnet 在 OSWorld 基准上的得分持续提升双鸭山pvc排水管专用胶水。
这意味着什么?几乎每企业都有些"前 API 时代"遗留下来的老旧系统,没有现代接口,法自动化。以前要让 AI 操作这些软件,就得给每个系统写门的连接器。而个能像人样使用电脑的模型,直接改变了这个等式。科技圈评论者 Trung Phan 调侃说,Anthropic 的 demo 演示了 Claude 帮人在 DMV 网站上续车的过程,"但 AI 还是没法修好 DMV 本身。"
当人人都有个 JARVIS
Computer Use 让模型能操作电脑,但要变成个真正帮人干活的 AI 助手,PVC管道管件粘结胶还需要层编排框架把模型和现实世界的工具连接起来。这正是过去两个月 AI 行业火热的战场。
2 月份热门的 AI 项目不是某个大模型,而是 OpenClaw。它原名 Clawdbot(名字来自 Claude 和龙虾钳的双关,后因 Anthropic 投诉两度改名),由奥地利开发者 Peter Steinberger 从个 WhatsApp 机器人做起,几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台,通过 WhatsApp、Slack、iMessage 接收指令,帮你管邮件、排日程、订机票、跑脚本,是目前接近"钢铁侠里的 J.A.R.V.I.S. "的有着消费的愿景和使用场景的产品。IBM 研究员 Kaoutar El Maghraoui 的评价是,OpenClaw 证明了自主 AI Agent "不限于大企业,可以是社区驱动的"。
OpenClaw 火爆的原因,不只是它本身做得好,因为它戳中了个被压抑已久的需求。过去年,AI 聊天机器人已经证明了自己在回答问题和生成内容上的能力,但用户真正想要的是个能替自己"做事"的助手,不只是聊天,而是能操作软件、执行任务、跨应用协调。OpenClaw 让这个需求次有了个具体的、可以跑起来的产品形态。
但 OpenClaw 也暴露了个人 AI Agent 面临的核心矛盾。安全研究人员发现过 13.5 万个暴露在公网上的实例;Cisco 检测了其技能市场排名的插件,发现能悄悄将用户数据发送到攻击者服务器。Andrej Karpathy 初称基于 OpenClaw 开发的 Moltbook 是"我见过的科幻的东西",几天后说"不建议任何人在自己的电脑上运行它"。个足够有用的 AI Agent 须拥有足够大的权限,而足够大的权限带来足够大的风险。这个矛盾目前没有人真正解决。
值得关注的是 OpenClaw 对 AI 行业商业格局的潜在冲击。OpenClaw 是模型关的,它能跑 Claude,也能跑 ChatGPT,也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户接触 AI 的主要入口,底层模型就有被"商品化"的风险,就像 Android 让手机硬件竞争变得残酷样。有评论者已经在问," OpenClaw 会不会成为 AI 时代的 Android?"
2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 亲口说" the future is going to be extremely multi-agent "(未来定是度多 Agent 的)。OpenClaw 转型为基金会项目,但它引发的这场关于"谁拥有 Agent 层"的争夺才刚开始。
这也是理解 Sonnet 4.6 的另把钥匙。Anthropic 的应对策略不是等着被别人的 Agent 框架调用,而是把 Agent 能力直接做进模型里。Computer Use、Claude Code、Cowork,都是在构建个"模型 + 工具链"的捆绑生态。Sonnet 4.6 把这些能力下放到中端价格,本质上是在说,你不需要个三框架来让 AI 替你干活,用 Claude 就行。
当然,能力越强意味着风险也越集中。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作场景中表现出"过度主动"的行为,比如未经授权发送邮件、过于激进地获取 token,而且这种行为法通过提示词避。立评测机构 Andon Labs 在 Vending-Bench 测试中发现,Sonnet 4.6 展现出与 Opus 4.6 类似的战略复杂度,包括自发的价格操纵和对竞争对手的欺骗行为。他们的评价是,"几乎样令人印象刻,也几乎样令人担忧,而且只要三分之的价格。"
Anthropic 路线
把视角拉回 Anthropic 本身,Sonnet 4.6 只是它 2 月份密集动作的部分。
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
2 月初,Anthropic 在碗投放了组系列广告,共四条片子,分别叫" Betrayal "" Deception "" Treachery "" Violation ",赛前和赛中各播条,另两条在线上流通,直指 OpenAI 在 ChatGPT 中加入广告的决定,slogan 是" Ads are coming to AI. But not to Claude. "果显著,网站访问量涨了 6.5,日活用户增长 11,Claude App 冲进了 Apple App Store 前十。
紧接着,Anthropic 宣布完成了 300 亿美元融资,估值达到 3800 亿美元,半年翻了倍多。年化收入攀升至 140 亿美元,其中 Claude Code 的年化收入就有 25 亿美元,企业订阅今年翻了四倍。
OpenAI 的 CEO Altman 对此不太兴,批评 Anthropic 的碗广告"明显不诚实",说它是"把昂贵产品给有钱人"。Anthropic CEO Dario Amodei 的稍早点在达沃斯论坛说自己不需要"跟某个大玩进行十亿费用户的死亡竞赛"。
这或许暴露了两公司在路线上的某种分歧。从公开信息来看,OpenAI 倾向用户规模路线,费用户尽可能多,再通过广告和增值服务探索变现;它收编 OpenClaw 创始人,也是在占 Agent 编排层的入口。Anthropic 走的看上去像是生产力工具路线,80 的收入来自企业客户,核心点是 coding 和 agent 能力,不做图片生成,不太追求 C 端 DAU,而是把 Agent 能力内建到模型本身。Sonnet 4.6 让费用户也能使用旗舰能力,本身就是对"只服务有钱人"这个批评的声回应。
有个数字或许能说明 AI Agent 能力提升带来的冲击,自 Anthropic 和 OpenAI 密集发布新模型以来,软件股已经蒸发了约 2 万亿美元的市值。投资者正在 price in 个可能,AI Agent 对传统 SaaS 软件的替代,可能比所有人预想的都快。
12 天两个模型双鸭山pvc排水管专用胶水,两周三次头条。这可能会成为 2026 年 AI 行业的默认节奏。
相关词条:不锈钢保温 塑料管材设备 预应力钢绞线 玻璃棉板厂家 pvc管道管件胶