目录

vLLM+vLLM-ascend 整体规划和架构

社区演进概述

华为昇腾技术路线

昇腾推理架构解析

vLLM 核心技术

推理精度分析方法

精度分析工具

常见问题与解决方案

Badcase 分析

推理性能分析方法

性能分析工具

性能问题定位

性能数据分析

PD 分离场景调优

vLLM-ascend 推理部署流程

环境准备

模型下载与安装

离线与在线推理

常用特性与入参介绍

注意事项

总结


本文主要讲解 vLLM-ascend 整体规划和架构以及核心技术内容。

vLLM+vLLM-ascend 整体规划和架构

社区演进概述

  • • 回顾社区在推理引擎领域的发展历程。

  • • 强调开源与性能并重的重要性。

    图片

华为昇腾技术路线

  • • 以开源为基础,与社区紧密配合,回馈社区。

图片

昇腾推理架构解析

架构概览

  • • 华为MindIE推理引擎与业界开源生态引擎(如LLM、TensorFlow TGI、Triton)的对比。

计算架构层

  • • 对标 CUDA 的计算架构设计。

框架 Plugin 层

  • • 介绍 vLLM-Ascend 作为 vLLM 框架的 Plugin,实现硬件层适配。

vLLM 核心技术

1. Paged Attention

  • • 解决内存碎片与显存浪费问题,通过分页内存分配提高资源利用率。

图片

2. Continuous Batching

  • • 与 Paged Attention 配套使用,提高 GPU/NPU 算力和显存利用率。

图片

3. vLLM-Ascend 插件

  • • 硬件层适配,屏蔽 GPU 与 NPU 差异,支持无缝迁移。

  • • 降低二次开发门槛,支持模型零拷贝。

图片

4. 安装与调用流程

图片

5. ACL Graph与性能优化

(1)ACL Graph 概念

  • • 对标CUDA graph,实现一次捕获、多次重放,减少空泡。

图片

(2)性能优化策略

  • • 提高系统并行度,减少无法并行部分。

  • • 介绍 vLLM 如何通过提高应用层系统并行度实现性能提升。

推理精度分析方法

精度分析工具

  1. 1. 介绍 OpenCampass、EvalScope、AISBench 等工具。

图片

  1. 2. 强调通过跑数据集获取精度指标的方法。

图片

常见问题与解决方案

图片

  • • 介绍如何通过调整参数和模型设计提高精度。

Badcase 分析

  1. 1. 如何定位和分析 Badcase,找出精度不达标的原因。

图片

  1. 2. 基于MSProbe工具的精度数据采集

图片

推理性能分析方法

性能分析工具

图片

使用 AISBench 进行性能测评:

  • • 配置随机数据集

  • • 指定模型和数据集

  • • 通过命令行启动性能测评

性能问题定位

图片

性能数据分析

  • • op_statistic.csv

  • • trac_view.json

PD 分离场景调优

图片

  • • PD 分离场景调优:通过解耦预填充(Prefill)与生成(Decode)阶段,突破 KV Cache 导致的吞吐瓶颈。

  • • 介绍如何通过调整 PD 配比和预期 TPS 来优化系统性能。

vLLM-ascend 推理部署流程

图片

环境准备

  • • 使用npu-smi info 检查 NPU 驱动固件安装情况。

  • • 推荐使用 Docker 进行部署。

模型下载与安装

图片

  • • 介绍如何通过 ModelScope 下载模型。
    强调安装 vLLM 与 vLLM-Ascend 的步骤。

离线与在线推理

  • • 介绍离线与在线推理的使用方式与区别。

  • • 强调 vLLM-Ascend 与 vLLM 使用方式的一致性。

常用特性与入参介绍

  • • 环境变量

  • • 推理参数

图片

注意事项

图片

总结

本文系统介绍了vLLM-ascend推理引擎的整体架构与技术实现。重点包括:1)基于开源生态的昇腾推理架构,通过vLLM插件实现GPU/NPU硬件适配;2)核心技术创新如PagedAttention内存管理和ContinuousBatching批处理优化;3)性能优化策略包括ACLGraph应用和PD阶段解耦;4)完整的精度分析与性能评估方法体系;5)从环境准备到模型部署的全流程实践指南。该方案通过技术创新和工具链整合,显著提升了AI推理的效率和易用性,为昇腾生态提供了高性能的推理解决方案。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐