在这里插入图片描述

昇腾AI基础软件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

集群监控与运维软件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 硬件产品介绍

  • 鲲鹏芯片与泰山服务器

    • 鲲鹏芯片定义:鲲鹏芯片是一系列硬件的统称,包括鲲鹏 910、鲲鹏 920 等型号,市场上应用最多的是鲲鹏 920。
    • 泰山服务器形成:鲲鹏芯片插到鲲鹏主板上,再将主板放入泰山服务器,从而形成通用服务器。
  • 昇腾计算与 Atlas 系列

    • 昇腾计算核心:昇腾计算是华为针对 AI 挑战专门开发的,核心是面向 AI 场景。
    • Atlas 系列特点:其具体型号为 Atlas 系列,如 Atlas 300、Atlas 200I 等,只要提到 Atlas,就意味着与 AI 相关,属于系列服务器。
  • CAN 平台讲解

    • 平台类比与作用
      • 类比操作系统:CAN 平台可类比为操作系统或中间件,它提供从底层加速到上层应用开发的全栈能力,起到承上启下的作用。
      • 异构架构核心:由于昇腾处理器是 ARM 架构,与常规的 X86 架构不同,代码无法直接在华为服务器上运行,CAN 平台可实现 APC 转换,将异构模型适配到昇腾计算资源上。
    • 平台安装与使用
      • 安装方式:可在 Windows 系统上通过 WSL 子系统安装 CAN 平台,安装时注意不要安装到 C 盘,避免磁盘空间不足。
      • 模型转换:安装完成后,可进行模型转换,将 ONNX、Tensorflow、Metisflow、Caffe 等模型转换为 OM 模型,以在昇腾硬件上运行。转换时使用 ATC 命令,根据不同模型选择相应参数。
      • 模型运行:转换后的模型可在 Atlas 200 等开发者盒子上运行,进行推理等操作,如进行图像识别等。
  • 主流框架介绍

    • 常见框架信息
      • 框架开发主体:Matasport 是 MAT 公司(前身是 Facebook)人工智能研究小组开发的;TensorFlow 是谷歌开发的;PyTorch 是百度开发的;昇思是华为开发的。
      • 框架核心作用:这些框架的核心是降低开发门槛,开发者无需从 0 到 1 搭建整个网络,可直接使用已有的轮子。
    • PyTorch 特点
      • 语言与速度:PyTorch 以 Python 优先,使用 Python 语言开发,速度较快,可直接调用。
      • 动态图优势:采用动态图,与 TensorFlow 1.0 的静态图不同,动态图调试方便,易于 debug,但 TensorFlow 1.0 运行效率高,华为的 Metapod 实现了动静统一编程,可通过一行代码切换动静图,兼具两者优势。
  • Metasport 框架剖析

  • 框架核心层次

    • 底层硬件部署:最底层是硬件,有云部署、边端部署等方式,可使用 CAN 平台或 Cuda 平台。
    • 中间运行系统:中间是 Runtime 运行时系统。
    • 上层算子与表达层:上层是各种内部算子库(AI 编译库)和 AI 中间表达层,常见的人工智能处理领域包括机器视觉、自然语言处理、语音处理和智能推荐。
  • 三层 API 结构

    • 低阶 API:较为底层,涉及张量、参数、自动等级、碎片化的 VMAP、神经网络等,用于搭建网络等开发工作,如 NN.flatten 就使用低阶 API。

    • 中阶 API:封装了低阶 API,包括优化器、损失函数等。

    • 高阶 API:如 model 模块,可将优化器等直接传入,是一层一层包含的关系。开发者可通过官网(mindspore.cn)查看 API 详细信息。

    • 框架支持设备:Metasport 作为 AI 全场景框架,支持各种设备,包括昇腾系列、英伟达系列、ARM 系列(如高通骁龙、麒麟芯片等)产品。

  • 相关工具与套件说明

    • Mat XDL 组件:可用于埃特拉斯卡的集群调度、深度学习的调度、边缘全周期的安全管理以及 SDK 开发等,考试可能会考查其具体组件。
    • Metaframes 套件:是大模型开发者套件,基于该套件可进行训练、预训练、数据抽取、转换、预处理和部署等全流程应用开发,支持主流的 Transformer 模型,可降低开发成本。
    • Matlink 方案:是华为为昇腾芯片大语言模型专门打造的端到端方案,涵盖数据制作、微调、推理、评估等功能,常与 Matformas 配合使用,其中包含专门针对大模型的加速库 Ascend Speed。
    • MATSTUDIO 环境:是一站式开发环境,可将算子、训练、推理等工具链一键部署,底层推理引擎为 AscendIE,可进行图优化和图运行优化,提高开发效率。
  • 监控与应用软件介绍

    • Smart Computing:用于计算设备集成和批量操作,可实现一键开局、批量安装软件包、离线下载等快速运行功能,考试重点考查在离线软件环境部署场景下的应用。
    • 飞深 Dict:用于边缘设备统一运维管理,支持公有云、私有云,可实现自动化运维,包括软硬件辅助和第三方工具的高效监控。
    • CCAE:是计算中心端到端的管理方案,用于全栈运维,涵盖集群资源、应用中层和管理层的统一,以及数据读取、预处理等功能,其运维架构为全场景解决方案服务。
  • 知识巩固测试:会议最后通过一道单选题巩固知识,题目为“以下哪个工具可以支持昇腾设备上快速开发大模型”,答案为 Metperformance(大模型开发套件),其他选项 Metasport 是框架,Mat X DL 用于计算卡集群管理调度,Mat insight 用于 ONNX 模型可视化,均不符合要求。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐