2026 年 6 月 17 日,智谱新一代旗舰基础模型GLM-5.2正式上线并开源。作为GLM系列迭代升级的重磅基座模型,GLM-5.2在上下文长度、代码能力、长程任务、智能体任务等领域实现全方位突破,从“答得好”走向“干得久”。昇腾一直同步支持智谱GLM系列模型,此次GLM-5.2模型一经开源发布,昇腾A3系列产品即实现0day适配,通过成熟的并行加速方案以及对vLLM、SGLang、xLLM等主流推理框架的深度兼容,为GLM-5.2模型的高效部署运行提供全流程支持。

GLM-5.2在GLM-5.1基础上完成架构细节优化与能力升级,是智谱当前综合性能最强的开源基础模型。在全球百万用户参与盲测的前端开发评估系统Code Arena上,GLM-5.2取得全球可用模型第一的表现。

图片

昇腾为GLM-5.2提供全方位推理优化

目前昇腾A3系列产品已经支持GLM5.2的单双机以及大EP推理部署。针对GLM5.2模型的结构特点,昇腾围绕以下几个关键技术开展了高效推理优化:

MOE大融合算子: 将专家路由、加权计算与结果归约融合为统一算子,消除中间张量冗余读写,显著提升计算效率。

通信与计算融合: 通过将AllReduce优化为ReduceScatter与AllGather通信原语,并与矩阵计算形成紧耦合流水线,实现通信延迟的有效隐藏。

注意力前处理与多Token预测优化: 采用注意力前处理融合算子,结合多Token预测(MTP)机制的加速,提升单步生成效率。

高并发调度与预填充延迟机制: 在高并发混合负载场景下引入预填充延迟调度,平滑计算峰值,降低Prefill阶段对Decode阶段的资源抢占。

智能缓存与索引优化: 结合IndexCache技术缓存高频专家路径与静态路由表,并采用Chunked Prefill、稀疏索引检索等方法,优化长上下文推理性能。

PD分离与Prefix Cache: 通过Prefill与Decode阶段分离及前缀缓存技术,压缩解码时延抖动,提升在线服务吞吐稳定性。

GLM-5.2:重塑Coding体验与长程任务

Solid 1M上下文: 1M上下文构成GLM-5.2的长程交付能力,多个长程任务基准表明GLM-5.2的表现介于Claude Opus 4.7与4.8之间,是排名最高的开源模型。在实际体验中,GLM-5.2完成开发、联调、测试到打包上线,完整交付一个覆盖Web、移动端与小程序的多端应用,累计处理88万tokens,几乎用满1M上下文窗口。过去,这样的大型工程需要一支团队协作数周,现在GLM-5.2能在一次长程任务中跑完。

更强体感: GLM-5.2在前端、后端、长程任务上的成功率相比前一代GLM-5.1都有提升,复杂系统工程与深度调试更稳。在主流编程基准上,GLM-5.2保持开源SOTA,与Claude Opus 4.8处于可比区间。

GLM-5.2在编程体验方面的最大提升集中在:

  • 项目级上下文承载更强,能把完整工程放进同一条推理链路里;

  • 长程任务执行更稳定,复杂任务能持续推进,不容易中途跑偏;

  • 生产级工程规范遵循更可靠,能守住团队研发流程里的硬约束;

  • 客户端与移动端工程能力更扎实,不止写App,还能完成真机调试闭环。

极致Infra优化: GLM-5.2的进步来自模型架构、推理系统和训练基础设施的协同设计。通过IndexShare,在每四层稀疏注意力层之间复用同一个索引器(indexer),在1M上下文长度下,将单位token的FLOPs降低至2.9倍。此外还改进了用于投机解码(speculative decoding)的MTP层,将接受长度(acceptance length)最多提升20%。在训练侧,通过自研Slime框架支撑大规模Agentic RL和OPD训练。

MIT开源协议: GLM-5.2在Hugging Face与ModelScope及AtomGit AI社区等开源,模型权重遵循最高权限MIT License,可自由下载、部署与商用。vLLM、SGLang、Transformers等主流推理框架已经支持。

用户及开发者可访问以下链接获取GLM-5.2基于昇腾的部署指导(实际商业性能与部署方案、参数配置及软硬件环境等因素相关):

vllm-ascend:

https://atomgit.com/vLLM_Ascend/GLM5.2

https://docs.vllm.ai/projects/ascend/en/latest/tutorials/models/GLM5.2.html

sglang:

https://ai.atomgit.com/SGLangAscend/GLM-5.2

https://github.com/sgl-project/sglang/blob/main/docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_glm5.2_examples.mdx

xllm:

https://atomgit.com/xLLM-AI/xllm/blob/preview/glm-5.2/docs/zh/getting_started/quick_start_GLM5.md

https://github.com/jd-opensource/xllm/blob/preview/glm-5.2/docs/zh/getting_started/quick_start_GLM5.md

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐