酒泉橡塑专用胶阿里让Qwen3.7-Max模拟创业，年“营收”1400万

阿里出了个新的 Agent 基座模型酒泉橡塑专用胶，来得有点猝不及。

就是 Qwen3.7-Max，预览版在 Arena 上测了没两天，正式版就跟出来了。

它在 Arena 全球大模型盲测总榜上拿下国产，理核心评测过 Claude Opus-4.6。

Qwen3.7-Max 不仅能在使用不同的 Harness 时保持致的优异表现，是把长程自主执行能力拉满，持续数十小时还不掉线。

为了证明这点，阿里让它在个长期监控任务自主运行了 80 多个小时，其间执行了上万次调用。

Qwen3.7-Max 的 API，即将通过阿里云百炼上线。

连续自主运行 86 小时

Qwen3.7-Max 主的是 Agent 能力，核心是长程自主执行，持续数十小时、跨越上千次工具调用还不掉线。

它可以在从未见过的硬件上优化理子，拿到块训练数据中未提及的芯片，没有文档、没有参考实现，Qwen3.7-Max 也能从开始干出结果。

在阿里自研的平头哥真武 M890 芯片上，仅凭借个任务描述、份 SGLang 现有实现和个评估脚本，Qwen3.7-Max 就完成了任务。

它先读懂现有实现，然后开始写 kernel、编译、跑能测试、分析瓶颈、再改。

这个循环持续了大约 35 小时，完成了 432 次 kernel 评估、1158 次工具调用。

中途遇到编译错误它自己诊断，碰到正确 bug 它自己修，能卡住了就重新设计架构。

在运行过 30 小时之后，它仍在发现新的有优化点，并主动发起了次关键的架构重设计。

终相对 SGLang Triton 官参考实现取得了 10 倍加速。

把这个任务交给其他国产模型，的加速比达到只有 7.3 倍，甚至有几个模型因为连续五轮没有发出任何工具调用，判断自己法继续进，主动停下来了。

它也可以模拟经营公司，跨越数百轮决策还不乱套。

在个模拟创业公司完整经营周期的基准测试 YC-Bench 里，它经营公司整整"年"，任务横跨员工管理、同筛选、识别恶意客户，还要在人力成本持续攀升的情况下守住盈利底线。

Qwen3.7-Max 终营收 2.08M 美元酒泉橡塑专用胶，是 Qwen3.6-Plus（1.05M）的两倍、Qwen3.5-Plus（352K）的近六倍，累计完成 237 项任务。

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

它中途还展现出了策略进化，主动探索客户、识别并拉黑恶意陷阱、从危机中自主恢复，终收敛到稳定的执行节奏。

它还可以接入真实的训练流程里充当监控，自己发现问题、自己写规则、自己验证。

接入 SWE 的 RL 训练监控之后，Qwen3.7-Max 自主运行了 86 小时，这段时间内执行了过万次调用。

它自主拉取训练轨迹并回放，归纳候选作弊模式，对检测规则进行验证、反例挖掘和迭代优化，终新增 13 条启发式规则，识别了 1618 个作弊案例。

跨框架的表现同样稳定。

把 Qwen3.7-Max 放到 Claude Code、OpenClaw、Qwen Code 里跑同个任务，结果都是致的。

这说明它不只是学到了某个特定框架的使用习惯，拥有了解决任务本身的能力。

除了计机中的框架，它甚至可以通过工具调用操控机器狗，在物理环境中执行规划、记忆和决策，驱动四足机器人在真实空间里行进，整个交互过程持续长达 20 分钟。

理过 Claude Opus-4.6

Agent 能力之外，Qwen3.7-Max 的通用能力同样扛。

文本类任务重，它的预览版本在 Arena 拿下国产，整体能已经逼近 GPT、Claude、Gemini 的顶配版本。

这个位置，基本反映了它在真实使用场景里的综表现。

理是亮眼的部分。

在 GPQA Diamond、HLE、HMMT 2026 Feb 这几个公认难度的基准上，它过了 Claude Opus-4.6。

其中 HLE 是目前学术界公认难的综理测试之，PVC管道管件粘结胶题目由各域顶出题，设计初衷就是让现有模型答不上来。

Qwen3.7-Max 在上面拿到 41.4酒泉橡塑专用胶，Opus-4.6 是 40.0。

它在数学竞赛向同样强势，IMOAnswerBench 上拿到 90.0，Apex 上拿到 44.5，两项均过 DeepSeek V4 Pro。

编程面同样拿得出手。

Terminal Bench 2.0-Terminus 是个模拟真实终端开发环境的编程智能体基准，Qwen3.7-Max 得分 69.7，过 DS-V4-Pro Max 的 67.9 和 Opus-4.6 的 65.4。

SWE 系列覆盖真实软件工程任务，Pro、Multilingual、Verified 三个子榜上，Qwen3.7-Max 均处于当前梯队。

前端生成面，给条 prompt，它可以直接输出带 Three.js 3D 场景、Canvas 动画或动态 SVG 的完整页面。

用 Three.js 创建个实时交互的 3D 粒子系统网页。要求：1. 通过摄像头检测手掌张控制粒子群的收缩与扩散，当手掌张开时例子扩散，当手掌握紧时例子收缩为个球；2. 当手势为 1 时，粒子组成文字（hello, world），当手势为 2 时组成文字（I ’ am Qwen）；3. 粒子需实时响应手势变化；4. 文字应有 3D 旋转果；5. 用 html 实现

指令遵循、多语言、长文本面，Qwen3.7-Max 也都跟得上。

IFBench 衡量的是模型对复杂指令的执行能力，Qwen3.7-Max 拿到 79.1，过 DeepSeek V4 Pro 的 77.0。

长文本理解 MRCR-v2 128k 上它拿到 90.4，过 Opus-4.6 的 84.0，在需要从长上下文中定位信息的任务上表现稳定。

多语言评测 WMT24++ 覆盖 55 种语言，MAXIFE 覆盖 23 种语言设置，在两个 Bencmark 中 Qwen3.7-Max 也均处于先位置。

跨框架 Agent 能力这样炼成

Qwen3.7-Max 能练出这些能力，背后有套法论，核心是训练环境的扩展式。

阿里把每个训练实例拆解成三个相互立的组件，包括任务、运行框架和验证器。

三者可以自由重组，同个任务可以低成本地和不同类型、不同版本的框架及验证器组，这让训练规模的扩展变得。

关键的是，模型在训练时会在多变的框架配置下处理同批任务，被迫学习真正解决问题的策略，而不是记住某个特定框架的使用习惯。

除了组建之外，另个关键是训练环境全部来自真实场景，不使用成替代品。

评测时使用的，也全是训练中从未出现过的域外环境。

这种设定意味着模型在测试时面对的永远是陌生的组，它能答对，靠的只能是真实的泛化能力。

阿里观察到个规律：任意基准子集上的能增益度致，可以可靠地预测其他基准的相对增益。

换句话说，能力的提升是整体的，通过观察它在 A 测试上进步了多少，基本可以准确预测它在 B 测试上会进步多少。

这说明环境扩展带来的不是针对某几个评测的过拟，是模型在底层的任务理解和执行能力上的真实提升。

这套法也解释了为什么 Qwen3.7-Max 在跨框架场景下表现如此稳定。

它在训练时从未针对 Claude Code、OpenClaw 或 Qwen Code 做过项优化，但放到这些框架里跑，结果依然致。

正是因为训练过程中模型始终面对的是任务和框架的随机组，它才没有机会走捷径，只能把解决问题的能力真正内化下来。

参考链接：

https://qwen.ai/blog?id=qwen3.7

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

属 AI 产品从业者的实名社群，只聊 AI 产品落地的真问题扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

� � 新业的 AI 产品信息及分析 � �

� � 不定期发放的热门产品内测码 � �

� � 内部属内容与业讨论 � �

� � 点亮星标 � �

科技前沿进展每日见

相关词条:铝皮保温隔热条设备钢绞线厂家玻璃棉泡沫板橡塑板专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述酒泉橡塑专用胶，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

新闻资讯

酒泉橡塑专用胶 阿里让Qwen3.7-Max模拟创业，年“营收”1400万

酒泉橡塑专用胶阿里让Qwen3.7-Max模拟创业，年“营收”1400万