登录社区云,与社区用户共同成长
邀请您加入社区
本文深入探讨了昇腾NPU的片上内存优化技术,针对Triton算子开发中的内存约束问题提出系统解决方案。重点分析了核内分块技术、数据重用策略和内存访问模式优化等关键技术,通过实际案例展示了如何在大规模数据处理中突破内存限制。研究表明,这些优化技术可显著降低内存使用(最高70%)并提升性能(30-50%)。文章还提供了故障排查指南和性能对比数据,展望了智能内存调度等未来发展方向,为昇腾NPU开发者提供
本文以ResNet50模型优化为实战案例,系统解析Ascend C在复杂AI模型中的应用方法论。涵盖模型结构分析计算热点识别算子级优化系统级调优等完整技术链。通过卷积算子极致优化内存访问模式重构多核并行策略等核心技术,展示如何将ResNet50在昇腾910B上的推理性能从基准150fps提升至2100fps。包含基于真实生产数据的性能分析瓶颈定位和优化验证,为AI模型的高性能部署提供完整参考。基于
昇腾CANN作为华为AI战略的技术基石,通过持续的架构创新和深度优化,为AI应用提供了强大的算力支撑。从技术架构到实际应用,从性能表现到未来发展,CANN都展现出了卓越的技术实力和广阔的发展前景。对于AI开发者而言,深入理解CANN的架构特性和技术优势,将有助于更好地利用昇腾计算平台,开发出性能更优、能效更高的AI应用,在AI技术快速发展的浪潮中保持竞争优势。
掌握Java昇腾算力调度,打造高并发AI服务。结合Java生态与昇腾硬件优势,详解7种设计模式在异构计算场景中的应用,提升资源利用率与系统响应速度。涵盖任务调度、内存管理、服务编排等核心方案,性能显著优化,值得收藏。
解决Java调用MindSpore模型在昇腾310/910芯片的兼容性难题,本文深入剖析Java昇腾AI处理器开发中的常见问题,提供环境配置、接口适配与性能优化实用方案。适用于AI推理部署场景,提升开发效率,值得收藏。
掌握华为昇腾2025激励:开发者算力补贴申领攻略,轻松获取免费AI算力支持。适用于AI模型训练、推理等场景,通过官方平台注册、提交项目方案即可申请,审核通过后享高额算力资源。流程简单、支持力度大,助力开发者降本增效,值得收藏。
学习算法:通过经验(数据)优化性能的程序,核心是 “从历史数据归纳规律,预测未来”。与传统基于规则的区别:传统靠人工显性编程,ML 靠数据自动学习规则(适用于规则复杂 / 数据分布动态变化场景)。定义:亿级以上参数、大规模数据训练、多任务处理能力的模型(如 GPT-3、LLaMA、GLM)。核心特点规模大:参数量十亿至万亿级(如 GPT-4 猜测 1.76 万亿)。能力强:跨任务泛化、少样本 /
企业对算力的需求,促进了算力平台的发展,天罡智算平台(https://www.tiangangaitp.com)就是其中的佼佼者:提供弹性GPU算力,灵活选择GPU类型和数量,按需动态使用,打破固定时长租期的束缚,只需为实际使用的资源付费。据悉,2026年后规划的昇腾920(或称910D)将采用“矩阵 + 向量 + 线程 + CCU”复合架构,增强对稠密与稀疏张量运算、矩阵计算及高速通信的支持,从
芯片:数字时代的算力引擎——鲲鹏、升腾、海光、Intel 全景解析
bios