GLM-5.1 发布：SWE-Bench Pro 58.4% 登顶全球第一，智谱 AI 终于出手了

2026年4月7日，智谱 AI 旗下平台 Z.ai 发布并开源 GLM-5.1。SWE-Bench Pro 拿下 58.4%，全球第一，超越 GPT-5.4（57.7%）和 Claude Opus 4.6（57.3%）。单次任务自主工作 8 小时，MIT 协议完全开源。还有一个被低估的细节：全程用华为昇腾 910B 训练，零英伟达。

拾-光

157人浏览 · 2026-04-22 09:00:00

拾-光 · 2026-04-22 09:00:00 发布

🤵‍♂️ 个人主页：小李同学_LSH的主页

✍🏻 作者简介：LLM学习者
🐋 希望大家多多支持，我们一起进步！😄
如果文章对你有帮助的话，
欢迎评论 💬点赞👍🏻 收藏 📂加关注+

📖 前言：「智谱 AI」变成「Z.ai」，这是一次蛰伏后的出击

🎯 速览核心规格

📊 Benchmark 全景：赢了哪些，输了哪些

✅ GLM-5.1 赢了的

❌ GLM-5.1 仍有差距的

🏛️ 架构解析：GlmMoeDSA 是什么？

三个组件的分工

为什么这个架构适合 Long-Horizon 任务？

⏱️ 核心突破：Long-Horizon 8 小时工作能力

什么是 Task-Completion Time Horizon？

方式一：API 调用（OpenAI 兼容）

方式二：OpenRouter（11 家供应商可用）

一句话开门见山：2026年4月7日，智谱 AI 旗下平台 Z.ai 发布并开源 GLM-5.1。SWE-Bench Pro 拿下 58.4%，全球第一，超越 GPT-5.4（57.7%）和 Claude Opus 4.6（57.3%）。单次任务自主工作 8 小时，MIT 协议完全开源。还有一个被低估的细节：全程用华为昇腾 910B 训练，零英伟达。

📌 基本信息

📅 发布时间：2026年4月7日

🏢 出品：Z.ai（智谱 AI 旗下平台）

⚙️ 架构：GlmMoeDSA，754B 总参数（~40B 激活）

📖 上下文：200K Token，最大输出 128K

🔓 开源：MIT License，HuggingFace（zai-org/GLM-5.1）

🖥️ 训练芯片：华为昇腾 910B（零英伟达）

📖 前言：「智谱 AI」变成「Z.ai」，这是一次蛰伏后的出击

在国内大模型圈，智谱 AI 是一个特殊的存在。

它是清华大学唐杰团队孵化的公司，GLM 系列是国内最早一批开源大模型，技术积累深厚。但过去一年里，DeepSeek 的横空出世、Kimi 的强势崛起、阿里 Qwen 的持续迭代，让智谱的声音越来越小。

直到 4月7日，Z.ai（原智谱 AI 更名）深夜发布 GLM-5.1。

一张 SWE-Bench Pro 排行榜截图开始在 AI 圈流传——第一名，是一个中文名字。

这是国产开源模型，第一次在软件工程最重要的基准测试上，击败了所有顶尖闭源模型。

本文适合：

🎓 想了解 GLM-5.1 技术细节的学生
🧑‍💻 在评估编程 AI 工具的开发者
🎯 关注国产 AI 竞争格局的同学

🎯 速览核心规格

指标	GLM-5.1
发布方	Z.ai（智谱 AI）
总参数	754B（MoE）
激活参数	~40B（每 Token 激活 8+1 个专家）
架构	GlmMoeDSA（Gated DeltaNet + 标准 Attention + 稀疏 MoE）
上下文窗口	200K Token
最大输出	128K Token
长程工作	单次任务自主工作 8 小时
训练芯片	华为昇腾 910B（全国产）
开源协议	MIT License
权重大小	1.51 TB（HuggingFace）

📊 Benchmark 全景：赢了哪些，输了哪些

先上全景图，好的坏的都说清楚。

✅ GLM-5.1 赢了的

Benchmark	GLM-5.1	Claude Opus 4.6	GPT-5.4	说明
SWE-Bench Pro	58.4%	57.3%	57.7%	真实 GitHub Bug 修复，全球第一
NL2Repo	42.7%	35.9%（GLM-5）→对比略有差异	-	从零构建完整代码仓库
Claude Code Harness	69.0%	-	-	最佳 Agent 脚手架测试

💡 SWE-Bench Pro 是怎么考的？ 不是写算法题，是给模型一个真实 GitHub 仓库的 Issue（"第 237 行在某个边界条件下会报 IndexError"），要求模型自主定位问题、修改代码、通过原始测试套件。全局第一意味着它修 Bug 比 GPT-5.4 和 Claude Opus 4.6 都强。

❌ GLM-5.1 仍有差距的

Benchmark	GLM-5.1	最强对手	说明
NL2Repo vs Opus	42.7%	Opus 4.6（49.8%）	从零构建仓库仍落后 7 分
Terminal-Bench 2.0	63.5%	Gemini 3.1 Pro（更高）	命令行任务略逊
HLE（博士级推理）	31.0%	GPT-5.4（更高）	纯推理有差距
Vending Bench 2	$5,634	Opus 4.6（$8,017）	自主获利能力落后
AIME / HMMT	-	GPT-5.4 领先	数学竞赛不是强项

结论：GLM-5.1 是一个专注于软件工程场景的模型，在编程/Agent 维度达到全球顶级，其他维度仍在追赶。这是一个有清晰取舍的技术路线，不是全能模型。

🏛️ 架构解析：GlmMoeDSA 是什么？

GLM-5.1 使用了一个专门设计的架构，全名 GlmMoeDSA（GLM Mixture of Experts with Deep Sparse Attention）。

三个组件的分工

① Gated DeltaNet（线性注意力）：处理超长上下文时，标准 Attention 的计算复杂度是 $O(n^2)$ ，对于 200K Token 的序列来说代价极高。DeltaNet 用线性近似将复杂度降到 $O(n)$ ，让模型能高效处理长任务链。

② 标准 Attention：在关键层保留精确的注意力计算，确保细节不丢失。

③ 稀疏 MoE（256 路由 + 1 共享专家，每次激活 8+1）： $y = E_{\text{shared}}(x) + \sum_{i \in \text{Top-8}} G_i(x) \cdot E_i(x)$ 每个 Token 只激活约 40B 参数，大幅降低推理成本——让 754B 的大模型在推理时的计算量接近 40B 的小模型。

加入 DeepSeek Sparse Attention（DSA） 进一步降低长上下文下的部署成本。

为什么这个架构适合 Long-Horizon 任务？

传统 Transformer 在处理几百轮工具调用时，有两个瓶颈：

注意力计算量随序列长度平方增长，几千步后速度急剧下降
KV Cache 显存占用巨大，容易 OOM

GlmMoeDSA 的线性注意力 + 稀疏激活组合，让模型能在保持性能的前提下，把任务链拉长到 8 小时。

⏱️ 核心突破：Long-Horizon 8 小时工作能力

这是 GLM-5.1 最有前瞻性的设计目标，也是它对标的核心维度。

什么是 Task-Completion Time Horizon？

2025年3月，AI 安全研究机构 METR 提出了新指标：任务完成时间线（Task-Completion Time Horizon）。

不再用"准确率"衡量模型有多聪明，而是用"时间"衡量它能独立完成多长时间的人类专家任务。

研究数据显示，前沿模型的时间线每 7 个月翻一倍，红杉资本称其为"AGI 的核心方向"：

2023-2024 年的 AI：会对话的"talker"
2026-2027 年的 AI：能真正落地做事的"doer"

GLM-5.1 是全球第一个在真实工程任务中验证了 8 小时持续工作能力的开源模型。

三个让人震撼的官方 Demo

Demo 1：向量数据库优化

GLM-5.1 自主优化一个向量数据库，执行超过 600 轮迭代，每轮自动测试性能、分析瓶颈、修改配置、验证结果——8 小时不间断，最终将查询速度提升了显著幅度。

Demo 2：机器学习工作负载优化

执行超过 1000 轮工具调用，覆盖特征工程、模型选择、超参调优、代码修复的完整研发流程。

Demo 3：Linux 桌面环境构建

从零开始，完全自主地构建一个 Linux 桌面环境，涵盖系统配置、软件安装、环境调试的全链路。

这三个 Demo 的共同特点：不是一次性生成，而是形成了「实验→分析→优化」的自主循环，不停地跑、不停地改、不停地验证——就像一个真正在工作的工程师。

可以连续工作多久，是怎么做到的？

核心机制是异步强化学习（Asynchronous RL）训练：

$\pi_{t+1} = \arg\max_\pi \mathbb{E}{\tau \sim \pi}\left[\sum{t=0}^{T} r_t\right]$

其中奖励 $r_t$ 不只针对单步结果，而是对整个长任务链的最终完成质量定义。这让模型学会了在数百步之后仍然记得最初的目标，而不是"做着做着忘了要干什么"。

🇨🇳 一个被低估的战略细节：零英伟达

GLM-5.1 was trained entirely on Huawei Ascend 910B chips with zero Nvidia hardware involvement.

在英文媒体的报道里，这被称为"政治上最重要的技术细节"。

背景：美国持续强化对华 AI 芯片出口管制，先后限制 H100、A100、H20。

GLM-5.1 的意义：用全国产算力（华为昇腾 910B）训练出了全球 SWE-Bench Pro 第一的模型——这直接证明了：

中国可以在算力封锁下，训练出前沿级别的大模型。

这和 DeepSeek V4 的国产化路线遥相呼应（V4 全面迁移至昇腾 950PR + CANN 框架）。两家头部中国 AI 公司相继完成对英伟达的"脱钩"验证，这不只是技术新闻，也是产业战略信号。

💻 5 分钟上手 GLM-5.1

方式一：API 调用（OpenAI 兼容）

from openai import OpenAI

client = OpenAI(
    api_key="your-zai-api-key",
    base_url="https://api.z.ai/api/paas/v4"
)

response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {
            "role": "user",
            "content": "分析这段代码的潜在 Bug，给出可运行的修复方案：\n\n[粘贴你的代码]"
        }
    ],
    max_tokens=4096,
    temperature=0.6
)
print(response.choices[0].message.content)

方式二：OpenRouter（11 家供应商可用）

client = OpenAI(
    api_key="your-openrouter-key",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[{"role": "user", "content": "帮我优化这段 Python 代码的性能"}]
)

方式三：本地部署（需要大显存）

# 权重下载（注意：1.51 TB）
git lfs clone https://huggingface.co/zai-org/GLM-5.1

# vLLM 部署（推荐多卡）
pip install vllm

python -m vllm.entrypoints.openai.api_server \
    --model ./GLM-5.1 \
    --tensor-parallel-size 8 \
    --max-model-len 32768

⚠️ 硬件要求：754B 模型权重 1.51 TB，本地部署需要多张 A100/H100 或等效国产显卡。普通开发者建议直接用 API。

🆚 国产开源四强横评

本周（4月第二周），四款重量级国产开源模型密集发布，正好做个横评：

模型	SWE-Bench Pro	上下文	长程能力	特色
GLM-5.1	58.4%（#1）	200K	8 小时	全昇腾训练、Long-Horizon
Kimi K2.6	58.6%（#1）	256K	13 小时	300 Agent 并行、视觉设计
MiniMax M2.7	56.22%	200K	长程稳定	自我进化，SWE-V 78%
Qwen3.6 Plus	-	100万	中等	速度快，MCP 最优

💡 **GLM-5.1 vs Kimi K2.6：**两者 SWE-Bench Pro 仅差 0.2 分（58.4 vs 58.6），堪称平局。Kimi 上下文更长、Agent 规模更大；GLM-5.1 全昇腾训练、Long-Horizon 场景更专注。选哪个取决于你的具体场景，不存在全方位的胜负。

🔮 智谱的商业策略：敢涨价，说明底气足了

一个有意思的细节：GLM-5.1 发布的同时，智谱再次提价 10%。

这是智谱在半年内第三次涨价。调价后，编码场景定价已接近 Claude Sonnet 4.6 水平。

这说明什么？

一年前，国产模型用"比你便宜"来打市场。一年后，智谱用"真能干活"来支撑更高的价格。

"从'我便宜所以用我'，到'我真能干活所以我敢贵'——国产模型正在完成价值定位的转变。"

这个转变，比 Benchmark 数字本身，更能说明国产 AI 走到了哪一步。

🎁 总结

🔑 核心记忆点
发布时间	2026年4月7日
最大亮点	SWE-Bench Pro 58.4%，全球第一
架构	GlmMoeDSA，754B 总参数，~40B 激活
长程能力	8 小时自主工作，数百轮迭代
战略亮点	全程华为昇腾 910B 训练，零英伟达
局限性	NL2Repo / 纯推理 / 视觉仍落后头部模型
开源	MIT License，可商用

GLM-5.1 不是全能冠军，但它选择了一个清晰的赛道——专注软件工程和长程 Agent 任务——然后在这个赛道上打到了全球第一。

更深的意义在于：它证明了用全国产算力可以训练出前沿级别的模型。这颗棋，落在了对的位置。

📣 最后

如果这篇让你搞清楚了 GLM-5.1 的价值：

👍 点赞支持国产开源模型
⭐ 收藏 API 代码随时用
💬 评论参与投票，聊聊你怎么看国产 AI 的崛起
🔔 关注持续追踪开源大模型动态，一个正在学 AI 的大学生 👨‍🎓

📚 相关阅读：

《Kimi K2.6 深夜正式发布：对标 Opus 4.6，刷新开源编程天花板》

《MiniMax M2.7 深度解析：AI 第一次自己训练自己》

《DeepSeek V4 来了：长期记忆 + 编程能力双突破》

📖 参考资料：

Z.ai 官方博客（z.ai/blog/glm-5.1，2026.04.07）

量子位：《开源模型首超 Opus 4.6！智谱 GLM-5.1 登场》（2026.04.08）

MarkTechPost：《Z.AI Introduces GLM-5.1》（2026.04.08）

buildfastwithai：《GLM-5.1: #1 Open Source AI Model?》

苏米客：《GLM-5.1 代码能力实测》（2026.04.08）

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

鸿蒙游戏网络层：为什么不能直接用 fetch？

人工智能6S服务平台

鸿蒙游戏如何设计可扩展架构？

人工智能6S服务平台

2026年GPU租赁平台价格对比：谁才是AI训练的性价比之王？

2026年了，AI模型的参数量越来越大，训练一个像样的模型动不动就要烧掉几千上万的GPU费用。作为一名深度学习开发者，这两年我几乎把国内主流的GPU租赁平台都踩了个遍——从RTX 4090到A100，从H100到昇腾910B，该踩的坑基本都踩过。到底哪个平台最划算？有没有什么选型技巧？今天就把我的实战经验整理成一份完整的价格对比指南，帮你避坑、省钱、选对卡。追求极致性价比→ 极智算追求易用性和生态