登录社区云,与社区用户共同成长
邀请您加入社区
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
昇腾 NPU 在 Kubernetes 上的落地实战指南
Flutter 的高级特性是区分“普通开发者”与“专家”的关键。掌握动画、绘制、平台集成与 Web 优化,不仅能解决复杂业务需求,更能让你在技术方案选型中拥有更多话语权。本文提供的代码均可直接运行,建议结合官方文档深入实践。欢迎大家加入[开源鸿蒙跨平台开发者社区](https://openharmonycrossplatform.csdn.net),一起共建开源鸿蒙跨平台生态。
摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂
本文介绍了昇腾NPU通信库hixl在PD分离架构中的关键作用。hixl是一种单边通信库,与需要同步的hccl/hcomm不同,它允许发送方独立完成数据传输,接收方无需实时配合。这一特性使其特别适合LLM推理中的Prefill-Decode分离场景,可异步传输大容量KV Cache数据。文章还分析了hixl的零拷贝机制如何通过共享内存实现高效传输,并比较了hixl与shmem等其他通信组件的关系。最
【昇腾CANN】ops-cv算子库深度解析:让计算机视觉跑得更快
【昇腾CANN】community仓库:参与开源社区的正确姿势
写给前端的 CAAN-pto-isa:昇腾虚拟指令集架构到底是啥?
写给前端的 CAAN-pyasc:昇腾Python Ascend C绑定到底是啥?
有个同事之前跟我说,他写了一套数据预处理的 pipeline,全是 NumPy 写的,后来要迁移到昇腾 NPU 上跑,“感觉天都要塌了”——几千行 NumPy 代码,难道要全部重写?后来他发现了 asnumpy,这个东西基本上解决了这个问题。不需要改你的 NumPy 代码,直接换一下 import,数据搬上 NPU 跑,原来的语法一个不动。
FlashAttention 在昇腾 NPU 上是怎么省显存的?我花了两天把它搞明白了