前言

随着昇腾CANN全面开源开放,昇腾在和客户联创达成商业目标的过程中自身也在不断成长进步,一方面CANN吸纳了客户实践中的声音,对易用性、功能满足度、性能等层面积极改进;另一方面客户也将自身的一部分实践内容分享贡献到CANN开源社区,进一步推动了CANN的生态满足度。我们将这过程中诞生的新功能特性、算子开发实践、推理和训练部署实践总结成了20篇文章分享给大家,相信开发者们能通过这些文章有所借鉴和收获。

新功能特性

1. 自定义算子开发系列:TillingKey模板化编程实战

简介: 本文介绍了Ascend C算子开发中多场景算子新的开发实现方式——TilingKey模板化编程。同一个算子存在多种不同实现的情形,需要通过TilingKey区分算子的不同实现,本文针对TilingKey引入了模板实现的概念,进一步方便了TilingKey的维护和管理,提升算子开发易用性。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155784629?spm=1001.2014.3001.5502

2. 自定义算子开发系列:算子Kernel直调极简编程实践

简介: Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子编译部署和开发实现的难度。
文章链接:https://mp.weixin.qq.com/s/gxDwV-Q_xA8DkuJdbKvFzA

3. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍

简介: Host Bound一直是算子调用的显著性能瓶颈,造成Host Bound的核心原因在于算子Kernel执行前需要计算出TilingData,而TilingData的计算通常是在Host侧再拷贝到Device侧。本文介绍了AICPU Tiling下沉的编程方式,使用Device侧的AICPU计算TilingData,节省了Host侧拷贝TilingData到Device侧的时间。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156094628?spm=1001.2014.3001.5502

4. 自定义算子开发系列:Ascend C RTC即时编译

简介: 本文介绍了一种新的Ascend C算子编译方式——RTC即时编译。区别于静态编译提前将算子编译成二进制文件保存到存储设备的方式,RTC即时编译的算子编译发生在算子调用程序执行阶段。此时算子编译出的二进制数据保存在内存,减少了和磁盘的IO,加速了算子编译加载的速度;并且由于在调用阶段可以获取确定的算子shape、输入类型,编译出算子的执行性能也得到提升。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156327647?spm=1011.2415.3001.5331

5. npugraph_ex:CANN aclGraph的图模式样板间

简介: 本文介绍了基于torch.compile提供的昇腾高性能图后端npugraph_ex,它在基于aclGraph图捕获和重放的能力上进一步融合了亲和NPU的图优化能力,以满足大模型推理场景下的性能加速需求。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156203006?spm=1001.2014.3001.5502

6. 基于torch_npu的IPC特性介绍

简介: 本文介绍了基于昇腾torch_npu的IPC特性原理和使用方法,IPC允许不同进程之间直接访问共享的设备内存,无需显式的进行内存拷贝,提升了通信效率。此特性也在强化学习的实际场景中经过验证,推理进程通过共享内存直接获取训练进程的权重数据,大幅降低了推理进程的内存消耗。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156044864?spm=1001.2014.3001.5502

7. 三步上手:TorchAir自定义FX Pass实战指南

简介: 本文介绍了在昇腾NPU上利用PyTorch图模式进行大模型推理时,通过自定义FX Pass实现多流并行优化的的原理和步骤。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156022371

8. 大模型推理加速利器SuperKernel技术综述

简介: 本文从DeepSeekV3的优化实践出发,详细介绍了昇腾新推出的推理优化技术SuperKernel。该方法将整个网络模型编译为一个大算子,从而减少硬件调度开销并优化了Cache和同地址访问。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155195336?

算子开发实践

9.基于CANN开源算子库的二次开发实践:CrossEntropyLoss与Zloss融合

简介: 本文从训练性能优化的背景引入,详细介绍了训练损失函数算子CrossEntropyLoss和Zloss是如何基于CANN开源的算子代码一步步进行融合实现的。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155305580?spm=1001.2014.3001.5502

10.昇腾+DeepXTrace:推理集群快慢卡在线检测实践之MOE篇

简介: 本文介绍了一套为MC2 Dispatch和Combine算子设计的轻量级异常诊断方案,通过开源工具DeepXTrace和昇腾底层MoeDistributeDispatch与MoeDistributeCombine算子的改造结合,实现了诊断Dispatch与Combine操作通信缓慢原因的方案。
文章链接:https://mp.weixin.qq.com/s/AaZ3pgM-brWw8-DMxS54Wg

11.端到端打通transformer仓experimental路径首个开源mix算子

简介: 本文是开发者在CANN开源社区开源开放以来首次贡献算子的经历记录,不仅详细描述了算子的开发过程,也介绍了在开源仓贡献的具体流程,更是将过程中遇到的问题加以记录分享,供其他开发者参考。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156327808?spm=1011.2415.3001.5331

12.HCCL ReduceScatter算子高精度二次开发实践

简介: 本文介绍了基于HCCL ReduceScatter算子开源代码方案进行精度提升再进行性能优化的过程,详细说明了优化方案的设计思路和原理。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156458141?spm=1001.2014.3001.5502

推理部署实践

13. CANN开源赋能协同创新:SGLang+Mooncake+CANN HIXL的PD分离D2D部署实践

简介: 本文介绍了基于昇腾设备大模型PD分离部署D2D特性的实现原理——通过SGLang实现PD分离架构落地,Mooncake提供传输适配层,CANN的开源组件HIXL突破通信瓶颈,三者协同完成整套方案。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155013097

14. vLLM-Ascend:大模型推理的优化实践

简介: 本文分享了基于vLLM-Ascend推理引擎优化DeepSeek-V3模型的具体实践,详细介绍了vLLM-Ascend推理引擎的特性以及实践中的具体优化手段。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155346057

15. 基于HIXL+Mooncake+VLLM的KV Cache池化与高性能传输联创手段

简介: 本文介绍了基于CANN开源组件HIXL,结合Mooncake和vLLM框架的大模型推理KV Cache池化方案。针对单设备KV Cache存储受限的问题,该方案通过整合多存储介质构建KV Cache存储池,让请求前缀跨节点共享以提升命中率。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155537017

16.昇腾CANN HIXL助力破解RL推理长尾难题

简介: 本文介绍了利用HIXL组件快速构建PD分离方案,解决了RL推理长尾输入运行效率低的问题。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156328048

17.基于Atlas 900 A3 SuperPoD的LongCat-Flash模型推理性能优化实践

简介: LongCat-Flash模型是一款功能强大且高效的MoE架构开源大模型,采用了零计算专家和快捷连接混合专家两项创新设计。本文详细介绍了基于昇腾Atlas 900 A3 SuperPoD设备优化LongCat-Flash模型的多项关键优化措施。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156386249?spm=1001.2014.3001.5502

18.基于Atlas 900 A3 SuperPoD的Deepseek-R1模型推理性能优化实践

简介: 本文介绍了DeepSeek-R1模型在Atlas 900 A3 SuperPoD上的高吞吐推理优化实践。通过Omni-Infer框架和CANN全栈优化,解决了大规模集群推理中的通信瓶颈、调度不均、启动时延高、计算冗余等问题,最终实现了608QPM的高吞吐量,显著提升了模型的推理性能和效率。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156458883?spm=1001.2014.3001.5502

训练部署实践

19.FlashRecovery:大模型训练中快速且低成本的故障恢复方案

简介: 本文介绍了大模型训练中应对故障恢复挑战的创新方案FlashRecovery,该方案凭借主动实时故障检测、与集群规模无关的任务重启、基于数据并行的无检查点恢复三大核心模块,在超4800张AI加速卡、千亿参数模型的训练场景中,将故障恢复时间控制在150s内,大幅降低了故障恢复开销。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155275106

20.基于昇腾的SAM投机解码:长序列强化学习训练加速利器

简介: 本文介绍了在强化学习(RL)训练中引入一种基于后缀自动机(SAM)的无模型投机解码方案,该方法无需任何辅助模型,利用RL数据中固有的结构化重复特性生成候选序列检索,显著降低了Rollout延迟。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156094934?spm=1001.2014.3001.5502

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐