昇腾 AI 全栈深度解析:从算子开发到全链路协同
算法工程师在 AI 框架层专注建模,无需懂硬件;算子开发者在异构计算架构层面向硬件优化性能;最终用户在应用使能层快速调用能力。理解全栈的协同逻辑,能帮我们在算子开发时更精准地对齐上层需求与硬件特性,避免 “为了优化而优化”。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend
在前两篇文章中,我们聚焦于 Ascend C 算子开发的 “点”(基础概念)与 “线”(进阶流程);而实际的 AI 开发并非孤立的算子编写 ——昇腾 AI 全栈是支撑算子落地、实现端到端 AI 能力的技术底座。本文将拆解昇腾 AI 全栈的四层架构,结合之前的算子开发知识,讲清各层级的定位、核心组件,以及它们如何协同支撑 AI 任务从建模到部署的全流程。
一、昇腾 AI 全栈:四层架构的协同逻辑
昇腾 AI 全栈是 “从硬件到应用” 的完整技术体系,分为应用使能、AI 框架、异构计算架构、计算硬件四个层级 —— 我们之前开发的 Ascend C 算子,正是串联起这四层的核心纽带之一。
二、应用使能层面:AI 能力的 “用户落地层”
定位
这是距离终端用户 / 开发者最近的一层,负责将 AI 能力封装为易用的工具,实现模型的快速部署与调用。
核心组件
包含 API、SDK、部署平台、模型库等:
- API/SDK:提供标准化的调用接口,让用户无需关注底层细节,直接调用包含自定义算子的 AI 能力;
- 部署平台:负责将训练好的模型(含 Ascend C 算子)部署到昇腾硬件上,支持云、边、端等不同场景;
- 模型库:预置了大量优化好的 AI 模型(如 CV、NLP 领域),这些模型的底层往往集成了高性能的 Ascend C 算子。
与算子开发的关联
我们之前开发的 Add 算子,最终会被封装到模型库或部署平台中 —— 比如在部署平台上,用户只需通过几行 API 调用,就能触发包含该算子的模型推理,无需感知算子的底层实现。
三、AI 框架层面:AI 模型的 “建模训练层”
定位
这是算法工程师的核心工作层,负责构建、训练 AI 模型,是 “算法逻辑” 的承载层。
核心组件
包含 MindSpore(华为自研)、TensorFlow、PyTorch 等主流框架:
- 这些框架本身不直接操作硬件,而是通过调用下层的异构计算架构,实现模型的并行计算与加速;
- 昇腾对主流框架做了深度适配,支持将 Ascend C 自定义算子集成到框架中。
与算子开发的关联
在前文的 “算子多种调用方式” 中,我们提到 “通过 PyTorch 调用算子”—— 这正是在 AI 框架层的集成:
- 开发好的 Ascend C 算子,可被封装为 PyTorch 的自定义算子;
- 算法工程师在构建模型时,能像使用框架原生算子一样调用我们开发的 Add 算子,同时获得昇腾硬件的加速能力。
四、异构计算架构层面:软硬协同的 “加速中间层”
定位
这是连接 “AI 框架” 与 “计算硬件” 的桥梁,负责将框架的抽象计算请求,翻译成硬件能执行的指令,同时实现硬件资源的高效调度。
核心组件
以 CANN(昇腾异构计算架构)为核心,包含 Ascend C、算子开发工具链等:
- CANN:是整个异构计算架构的底座,提供了硬件抽象、并行调度、性能优化等能力;
- Ascend C:是我们之前重点讲解的算子开发语言,基于 CANN 提供的硬件抽象,直接面向昇腾硬件编写高性能算子;
- 算子工具链:包含编译、调试、性能分析工具,支撑我们完成 Add 算子的开发、Tiling 下发、Shape 推导等工作。
与算子开发的关联
这一层是算子开发的 “主战场”:
- 我们之前实现的 Add 算子 Kernel、Host 侧的 Tiling / 原型注册,都是在 CANN 框架下基于 Ascend C 完成的;
- 该层会将算子逻辑与硬件特性(如 AICore 的并行能力)绑定,实现 “写一次算子,自动适配硬件” 的效果。
五、计算硬件层面:AI 计算的 “物理底座层”
定位
这是全栈的 “根”,所有上层的 AI 能力都依赖硬件提供的计算算力,是性能的物理来源。
核心组件
以昇腾 AI 芯片为核心,包含 AICore(昇腾芯片的核心计算单元)、SoC 架构等:
- AICore:内置 Vector/Matrix 计算单元、存储单元,是 Ascend C 算子的实际运行载体 —— 我们之前开发的 Add 算子,最终就是在 AICore 的 Vector 单元上完成并行计算的;
- SoC 架构:整合了 AICore、CPU、内存等组件,实现异构资源的协同调度。
与算子开发的关联
硬件的架构直接决定了算子的设计逻辑:
- 比如 AICore 的 Vector 单元处理粒度(如 256 位),决定了我们在 Add 算子开发中需要考虑 “非对齐块处理”;
- 算子的性能优化(如利用 AICore 的流水线调度),本质是最大化硬件的原生能力。
总结:全栈协同的价值
昇腾 AI 全栈的四层架构,实现了 “上层易用、下层高效” 的平衡:
- 算法工程师在 AI 框架层专注建模,无需懂硬件;
- 算子开发者在异构计算架构层面向硬件优化性能;
- 最终用户在应用使能层快速调用能力。
理解全栈的协同逻辑,能帮我们在算子开发时更精准地对齐上层需求与硬件特性,避免 “为了优化而优化”。
2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
报名链接:https://www.hiascend.com/developer/activities/cann20252
更多推荐



所有评论(0)