昇腾 AI 全栈深度解析：从算子开发到全链路协同

算法工程师在 AI 框架层专注建模，无需懂硬件；算子开发者在异构计算架构层面向硬件优化性能；最终用户在应用使能层快速调用能力。理解全栈的协同逻辑，能帮我们在算子开发时更精准地对齐上层需求与硬件特性，避免 “为了优化而优化”。2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend

梧桐ty

623人浏览 · 2025-11-26 23:42:44

梧桐ty · 2025-11-26 23:42:44 发布

在前两篇文章中，我们聚焦于 Ascend C 算子开发的 “点”（基础概念）与 “线”（进阶流程）；而实际的 AI 开发并非孤立的算子编写 ——昇腾 AI 全栈是支撑算子落地、实现端到端 AI 能力的技术底座。本文将拆解昇腾 AI 全栈的四层架构，结合之前的算子开发知识，讲清各层级的定位、核心组件，以及它们如何协同支撑 AI 任务从建模到部署的全流程。

一、昇腾 AI 全栈：四层架构的协同逻辑

昇腾 AI 全栈是 “从硬件到应用” 的完整技术体系，分为应用使能、AI 框架、异构计算架构、计算硬件四个层级 —— 我们之前开发的 Ascend C 算子，正是串联起这四层的核心纽带之一。

二、应用使能层面：AI 能力的 “用户落地层”

定位

这是距离终端用户 / 开发者最近的一层，负责将 AI 能力封装为易用的工具，实现模型的快速部署与调用。

核心组件

包含 API、SDK、部署平台、模型库等：

API/SDK：提供标准化的调用接口，让用户无需关注底层细节，直接调用包含自定义算子的 AI 能力；
部署平台：负责将训练好的模型（含 Ascend C 算子）部署到昇腾硬件上，支持云、边、端等不同场景；
模型库：预置了大量优化好的 AI 模型（如 CV、NLP 领域），这些模型的底层往往集成了高性能的 Ascend C 算子。

与算子开发的关联

我们之前开发的 Add 算子，最终会被封装到模型库或部署平台中 —— 比如在部署平台上，用户只需通过几行 API 调用，就能触发包含该算子的模型推理，无需感知算子的底层实现。

三、AI 框架层面：AI 模型的 “建模训练层”

定位

这是算法工程师的核心工作层，负责构建、训练 AI 模型，是 “算法逻辑” 的承载层。

核心组件

包含 MindSpore（华为自研）、TensorFlow、PyTorch 等主流框架：

这些框架本身不直接操作硬件，而是通过调用下层的异构计算架构，实现模型的并行计算与加速；
昇腾对主流框架做了深度适配，支持将 Ascend C 自定义算子集成到框架中。

与算子开发的关联

在前文的 “算子多种调用方式” 中，我们提到 “通过 PyTorch 调用算子”—— 这正是在 AI 框架层的集成：

开发好的 Ascend C 算子，可被封装为 PyTorch 的自定义算子；
算法工程师在构建模型时，能像使用框架原生算子一样调用我们开发的 Add 算子，同时获得昇腾硬件的加速能力。

四、异构计算架构层面：软硬协同的 “加速中间层”

定位

这是连接 “AI 框架” 与 “计算硬件” 的桥梁，负责将框架的抽象计算请求，翻译成硬件能执行的指令，同时实现硬件资源的高效调度。

核心组件

以 CANN（昇腾异构计算架构）为核心，包含 Ascend C、算子开发工具链等：

CANN：是整个异构计算架构的底座，提供了硬件抽象、并行调度、性能优化等能力；
Ascend C：是我们之前重点讲解的算子开发语言，基于 CANN 提供的硬件抽象，直接面向昇腾硬件编写高性能算子；
算子工具链：包含编译、调试、性能分析工具，支撑我们完成 Add 算子的开发、Tiling 下发、Shape 推导等工作。

与算子开发的关联

这一层是算子开发的 “主战场”：

我们之前实现的 Add 算子 Kernel、Host 侧的 Tiling / 原型注册，都是在 CANN 框架下基于 Ascend C 完成的；
该层会将算子逻辑与硬件特性（如 AICore 的并行能力）绑定，实现 “写一次算子，自动适配硬件” 的效果。

五、计算硬件层面：AI 计算的 “物理底座层”

定位

这是全栈的 “根”，所有上层的 AI 能力都依赖硬件提供的计算算力，是性能的物理来源。

核心组件

以昇腾 AI 芯片为核心，包含 AICore（昇腾芯片的核心计算单元）、SoC 架构等：

AICore：内置 Vector/Matrix 计算单元、存储单元，是 Ascend C 算子的实际运行载体 —— 我们之前开发的 Add 算子，最终就是在 AICore 的 Vector 单元上完成并行计算的；
SoC 架构：整合了 AICore、CPU、内存等组件，实现异构资源的协同调度。

与算子开发的关联

硬件的架构直接决定了算子的设计逻辑：

比如 AICore 的 Vector 单元处理粒度（如 256 位），决定了我们在 Add 算子开发中需要考虑 “非对齐块处理”；
算子的性能优化（如利用 AICore 的流水线调度），本质是最大化硬件的原生能力。

总结：全栈协同的价值

昇腾 AI 全栈的四层架构，实现了 “上层易用、下层高效” 的平衡：

算法工程师在 AI 框架层专注建模，无需懂硬件；
算子开发者在异构计算架构层面向硬件优化性能；
最终用户在应用使能层快速调用能力。

理解全栈的协同逻辑，能帮我们在算子开发时更精准地对齐上层需求与硬件特性，避免 “为了优化而优化”。

2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。

报名链接:https://www.hiascend.com/developer/activities/cann20252

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

# KMP架构与鸿蒙系统的深度适配：从编译到运行的完整解决方案

本文探讨了Kotlin Multiplatform（KMP）跨平台框架与鸿蒙系统的融合方案。文章首先分析了KMP的核心架构，包括源代码组织结构和Expect/Actual机制，展示了如何实现代码复用与平台适配。随后详细解析了KMP的编译流程，从源代码解析到平台特定优化。重点阐述了KMP与鸿蒙系统的适配策略，包括运行时环境检测、内存管理优化等关键问题。最后详细介绍了KMP编译到JavaScript的