昇腾0Day支持GLM-5.2，为编程与长程任务提供全面推理优化，现已上线AtomGit AI

AtomGit

110人浏览 · 2026-06-18 14:52:08

AtomGit · 2026-06-18 14:52:08 发布

2026 年 6 月 17 日，智谱新一代旗舰基础模型GLM-5.2正式上线并开源。作为GLM系列迭代升级的重磅基座模型，GLM-5.2在上下文长度、代码能力、长程任务、智能体任务等领域实现全方位突破，从“答得好”走向“干得久”。昇腾一直同步支持智谱GLM系列模型，此次GLM-5.2模型一经开源发布，昇腾A3系列产品即实现0day适配，通过成熟的并行加速方案以及对vLLM、SGLang、xLLM等主流推理框架的深度兼容，为GLM-5.2模型的高效部署运行提供全流程支持。

GLM-5.2在GLM-5.1基础上完成架构细节优化与能力升级，是智谱当前综合性能最强的开源基础模型。在全球百万用户参与盲测的前端开发评估系统Code Arena上，GLM-5.2取得全球可用模型第一的表现。

昇腾为GLM-5.2提供全方位推理优化

目前昇腾A3系列产品已经支持GLM5.2的单双机以及大EP推理部署。针对GLM5.2模型的结构特点，昇腾围绕以下几个关键技术开展了高效推理优化：

MOE大融合算子： 将专家路由、加权计算与结果归约融合为统一算子，消除中间张量冗余读写，显著提升计算效率。

通信与计算融合： 通过将AllReduce优化为ReduceScatter与AllGather通信原语，并与矩阵计算形成紧耦合流水线，实现通信延迟的有效隐藏。

注意力前处理与多Token预测优化： 采用注意力前处理融合算子，结合多Token预测（MTP）机制的加速，提升单步生成效率。

高并发调度与预填充延迟机制： 在高并发混合负载场景下引入预填充延迟调度，平滑计算峰值，降低Prefill阶段对Decode阶段的资源抢占。

智能缓存与索引优化： 结合IndexCache技术缓存高频专家路径与静态路由表，并采用Chunked Prefill、稀疏索引检索等方法，优化长上下文推理性能。

PD分离与Prefix Cache： 通过Prefill与Decode阶段分离及前缀缓存技术，压缩解码时延抖动，提升在线服务吞吐稳定性。

GLM-5.2：重塑Coding体验与长程任务

Solid 1M上下文： 1M上下文构成GLM-5.2的长程交付能力，多个长程任务基准表明GLM-5.2的表现介于Claude Opus 4.7与4.8之间，是排名最高的开源模型。在实际体验中，GLM-5.2完成开发、联调、测试到打包上线，完整交付一个覆盖Web、移动端与小程序的多端应用，累计处理88万tokens，几乎用满1M上下文窗口。过去，这样的大型工程需要一支团队协作数周，现在GLM-5.2能在一次长程任务中跑完。

更强体感： GLM-5.2在前端、后端、长程任务上的成功率相比前一代GLM-5.1都有提升，复杂系统工程与深度调试更稳。在主流编程基准上，GLM-5.2保持开源SOTA，与Claude Opus 4.8处于可比区间。

GLM-5.2在编程体验方面的最大提升集中在：

项目级上下文承载更强，能把完整工程放进同一条推理链路里；
长程任务执行更稳定，复杂任务能持续推进，不容易中途跑偏；
生产级工程规范遵循更可靠，能守住团队研发流程里的硬约束；
客户端与移动端工程能力更扎实，不止写App，还能完成真机调试闭环。

极致Infra优化： GLM-5.2的进步来自模型架构、推理系统和训练基础设施的协同设计。通过IndexShare，在每四层稀疏注意力层之间复用同一个索引器（indexer），在1M上下文长度下，将单位token的FLOPs降低至2.9倍。此外还改进了用于投机解码（speculative decoding）的MTP层，将接受长度（acceptance length）最多提升20%。在训练侧，通过自研Slime框架支撑大规模Agentic RL和OPD训练。

MIT开源协议： GLM-5.2在Hugging Face与ModelScope及AtomGit AI社区等开源，模型权重遵循最高权限MIT License，可自由下载、部署与商用。vLLM、SGLang、Transformers等主流推理框架已经支持。

用户及开发者可访问以下链接获取GLM-5.2基于昇腾的部署指导（实际商业性能与部署方案、参数配置及软硬件环境等因素相关）：

vllm-ascend：

https://atomgit.com/vLLM_Ascend/GLM5.2

https://docs.vllm.ai/projects/ascend/en/latest/tutorials/models/GLM5.2.html

sglang：

https://ai.atomgit.com/SGLangAscend/GLM-5.2

https://github.com/sgl-project/sglang/blob/main/docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_glm5.2_examples.mdx

xllm：

https://atomgit.com/xLLM-AI/xllm/blob/preview/glm-5.2/docs/zh/getting_started/quick_start_GLM5.md

https://github.com/jd-opensource/xllm/blob/preview/glm-5.2/docs/zh/getting_started/quick_start_GLM5.md