【HCIA- AI(正课)】5.1 昇腾大模型方案
·

昇腾AI基础软件






















集群监控与运维软件








-
硬件产品介绍
-
鲲鹏芯片与泰山服务器
- 鲲鹏芯片定义:鲲鹏芯片是一系列硬件的统称,包括鲲鹏 910、鲲鹏 920 等型号,市场上应用最多的是鲲鹏 920。
- 泰山服务器形成:鲲鹏芯片插到鲲鹏主板上,再将主板放入泰山服务器,从而形成通用服务器。
-
昇腾计算与 Atlas 系列
- 昇腾计算核心:昇腾计算是华为针对 AI 挑战专门开发的,核心是面向 AI 场景。
- Atlas 系列特点:其具体型号为 Atlas 系列,如 Atlas 300、Atlas 200I 等,只要提到 Atlas,就意味着与 AI 相关,属于系列服务器。
-
CAN 平台讲解
- 平台类比与作用
- 类比操作系统:CAN 平台可类比为操作系统或中间件,它提供从底层加速到上层应用开发的全栈能力,起到承上启下的作用。
- 异构架构核心:由于昇腾处理器是 ARM 架构,与常规的 X86 架构不同,代码无法直接在华为服务器上运行,CAN 平台可实现 APC 转换,将异构模型适配到昇腾计算资源上。
- 平台安装与使用
- 安装方式:可在 Windows 系统上通过 WSL 子系统安装 CAN 平台,安装时注意不要安装到 C 盘,避免磁盘空间不足。
- 模型转换:安装完成后,可进行模型转换,将 ONNX、Tensorflow、Metisflow、Caffe 等模型转换为 OM 模型,以在昇腾硬件上运行。转换时使用 ATC 命令,根据不同模型选择相应参数。
- 模型运行:转换后的模型可在 Atlas 200 等开发者盒子上运行,进行推理等操作,如进行图像识别等。
- 平台类比与作用
-
主流框架介绍
- 常见框架信息
- 框架开发主体:Matasport 是 MAT 公司(前身是 Facebook)人工智能研究小组开发的;TensorFlow 是谷歌开发的;PyTorch 是百度开发的;昇思是华为开发的。
- 框架核心作用:这些框架的核心是降低开发门槛,开发者无需从 0 到 1 搭建整个网络,可直接使用已有的轮子。
- PyTorch 特点
- 语言与速度:PyTorch 以 Python 优先,使用 Python 语言开发,速度较快,可直接调用。
- 动态图优势:采用动态图,与 TensorFlow 1.0 的静态图不同,动态图调试方便,易于 debug,但 TensorFlow 1.0 运行效率高,华为的 Metapod 实现了动静统一编程,可通过一行代码切换动静图,兼具两者优势。
- 常见框架信息
-
Metasport 框架剖析
-
框架核心层次
- 底层硬件部署:最底层是硬件,有云部署、边端部署等方式,可使用 CAN 平台或 Cuda 平台。
- 中间运行系统:中间是 Runtime 运行时系统。
- 上层算子与表达层:上层是各种内部算子库(AI 编译库)和 AI 中间表达层,常见的人工智能处理领域包括机器视觉、自然语言处理、语音处理和智能推荐。
-
三层 API 结构
-
低阶 API:较为底层,涉及张量、参数、自动等级、碎片化的 VMAP、神经网络等,用于搭建网络等开发工作,如 NN.flatten 就使用低阶 API。
-
中阶 API:封装了低阶 API,包括优化器、损失函数等。
-
高阶 API:如 model 模块,可将优化器等直接传入,是一层一层包含的关系。开发者可通过官网(mindspore.cn)查看 API 详细信息。
-
框架支持设备:Metasport 作为 AI 全场景框架,支持各种设备,包括昇腾系列、英伟达系列、ARM 系列(如高通骁龙、麒麟芯片等)产品。
-
-
相关工具与套件说明
- Mat XDL 组件:可用于埃特拉斯卡的集群调度、深度学习的调度、边缘全周期的安全管理以及 SDK 开发等,考试可能会考查其具体组件。
- Metaframes 套件:是大模型开发者套件,基于该套件可进行训练、预训练、数据抽取、转换、预处理和部署等全流程应用开发,支持主流的 Transformer 模型,可降低开发成本。
- Matlink 方案:是华为为昇腾芯片大语言模型专门打造的端到端方案,涵盖数据制作、微调、推理、评估等功能,常与 Matformas 配合使用,其中包含专门针对大模型的加速库 Ascend Speed。
- MATSTUDIO 环境:是一站式开发环境,可将算子、训练、推理等工具链一键部署,底层推理引擎为 AscendIE,可进行图优化和图运行优化,提高开发效率。
-
监控与应用软件介绍
- Smart Computing:用于计算设备集成和批量操作,可实现一键开局、批量安装软件包、离线下载等快速运行功能,考试重点考查在离线软件环境部署场景下的应用。
- 飞深 Dict:用于边缘设备统一运维管理,支持公有云、私有云,可实现自动化运维,包括软硬件辅助和第三方工具的高效监控。
- CCAE:是计算中心端到端的管理方案,用于全栈运维,涵盖集群资源、应用中层和管理层的统一,以及数据读取、预处理等功能,其运维架构为全场景解决方案服务。
-
知识巩固测试:会议最后通过一道单选题巩固知识,题目为“以下哪个工具可以支持昇腾设备上快速开发大模型”,答案为 Metperformance(大模型开发套件),其他选项 Metasport 是框架,Mat X DL 用于计算卡集群管理调度,Mat insight 用于 ONNX 模型可视化,均不符合要求。
更多推荐




所有评论(0)