在前两篇文章中,我们聚焦于 Ascend C 算子开发的 “点”(基础概念)与 “线”(进阶流程);而实际的 AI 开发并非孤立的算子编写 ——昇腾 AI 全栈是支撑算子落地、实现端到端 AI 能力的技术底座。本文将拆解昇腾 AI 全栈的四层架构,结合之前的算子开发知识,讲清各层级的定位、核心组件,以及它们如何协同支撑 AI 任务从建模到部署的全流程。

一、昇腾 AI 全栈:四层架构的协同逻辑

昇腾 AI 全栈是 “从硬件到应用” 的完整技术体系,分为应用使能、AI 框架、异构计算架构、计算硬件四个层级 —— 我们之前开发的 Ascend C 算子,正是串联起这四层的核心纽带之一。

二、应用使能层面:AI 能力的 “用户落地层”

定位

这是距离终端用户 / 开发者最近的一层,负责将 AI 能力封装为易用的工具,实现模型的快速部署与调用。

核心组件

包含 API、SDK、部署平台、模型库等:

  • API/SDK:提供标准化的调用接口,让用户无需关注底层细节,直接调用包含自定义算子的 AI 能力;
  • 部署平台:负责将训练好的模型(含 Ascend C 算子)部署到昇腾硬件上,支持云、边、端等不同场景;
  • 模型库:预置了大量优化好的 AI 模型(如 CV、NLP 领域),这些模型的底层往往集成了高性能的 Ascend C 算子。

与算子开发的关联

我们之前开发的 Add 算子,最终会被封装到模型库或部署平台中 —— 比如在部署平台上,用户只需通过几行 API 调用,就能触发包含该算子的模型推理,无需感知算子的底层实现。

三、AI 框架层面:AI 模型的 “建模训练层”

定位

这是算法工程师的核心工作层,负责构建、训练 AI 模型,是 “算法逻辑” 的承载层。

核心组件

包含 MindSpore(华为自研)、TensorFlow、PyTorch 等主流框架:

  • 这些框架本身不直接操作硬件,而是通过调用下层的异构计算架构,实现模型的并行计算与加速;
  • 昇腾对主流框架做了深度适配,支持将 Ascend C 自定义算子集成到框架中。

与算子开发的关联

在前文的 “算子多种调用方式” 中,我们提到 “通过 PyTorch 调用算子”—— 这正是在 AI 框架层的集成:

  • 开发好的 Ascend C 算子,可被封装为 PyTorch 的自定义算子;
  • 算法工程师在构建模型时,能像使用框架原生算子一样调用我们开发的 Add 算子,同时获得昇腾硬件的加速能力。

四、异构计算架构层面:软硬协同的 “加速中间层”

定位

这是连接 “AI 框架” 与 “计算硬件” 的桥梁,负责将框架的抽象计算请求,翻译成硬件能执行的指令,同时实现硬件资源的高效调度。

核心组件

以 CANN(昇腾异构计算架构)为核心,包含 Ascend C、算子开发工具链等:

  • CANN:是整个异构计算架构的底座,提供了硬件抽象、并行调度、性能优化等能力;
  • Ascend C:是我们之前重点讲解的算子开发语言,基于 CANN 提供的硬件抽象,直接面向昇腾硬件编写高性能算子;
  • 算子工具链:包含编译、调试、性能分析工具,支撑我们完成 Add 算子的开发、Tiling 下发、Shape 推导等工作。

与算子开发的关联

这一层是算子开发的 “主战场”

  • 我们之前实现的 Add 算子 Kernel、Host 侧的 Tiling / 原型注册,都是在 CANN 框架下基于 Ascend C 完成的;
  • 该层会将算子逻辑与硬件特性(如 AICore 的并行能力)绑定,实现 “写一次算子,自动适配硬件” 的效果。

五、计算硬件层面:AI 计算的 “物理底座层”

定位

这是全栈的 “根”,所有上层的 AI 能力都依赖硬件提供的计算算力,是性能的物理来源。

核心组件

以昇腾 AI 芯片为核心,包含 AICore(昇腾芯片的核心计算单元)、SoC 架构等:

  • AICore:内置 Vector/Matrix 计算单元、存储单元,是 Ascend C 算子的实际运行载体 —— 我们之前开发的 Add 算子,最终就是在 AICore 的 Vector 单元上完成并行计算的;
  • SoC 架构:整合了 AICore、CPU、内存等组件,实现异构资源的协同调度。

与算子开发的关联

硬件的架构直接决定了算子的设计逻辑:

  • 比如 AICore 的 Vector 单元处理粒度(如 256 位),决定了我们在 Add 算子开发中需要考虑 “非对齐块处理”;
  • 算子的性能优化(如利用 AICore 的流水线调度),本质是最大化硬件的原生能力。

总结:全栈协同的价值

昇腾 AI 全栈的四层架构,实现了 “上层易用、下层高效” 的平衡:

  • 算法工程师在 AI 框架层专注建模,无需懂硬件;
  • 算子开发者在异构计算架构层面向硬件优化性能;
  • 最终用户在应用使能层快速调用能力。

理解全栈的协同逻辑,能帮我们在算子开发时更精准地对齐上层需求与硬件特性,避免 “为了优化而优化”。

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。

报名链接:https://www.hiascend.com/developer/activities/cann20252

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐