推理引擎系列（六）《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括：1) 社区演进与华为昇腾技术路线，强调开源生态的重要性；2) 架构解析，包含计算架构层和框架Plugin层设计；3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等；4) 推理精度与性能分析方法及工具使用；5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配

Shining0596

373人浏览 · 2026-03-20 16:33:12

Shining0596 · 2026-03-20 16:33:12 发布

目录

vLLM+vLLM-ascend 整体规划和架构

社区演进概述

华为昇腾技术路线

昇腾推理架构解析

vLLM 核心技术

推理精度分析方法

精度分析工具

常见问题与解决方案

推理性能分析方法

性能分析工具

性能问题定位

性能数据分析

PD 分离场景调优

vLLM-ascend 推理部署流程

模型下载与安装

离线与在线推理

常用特性与入参介绍

本文主要讲解 vLLM-ascend 整体规划和架构以及核心技术内容。

vLLM+vLLM-ascend 整体规划和架构

社区演进概述

• 回顾社区在推理引擎领域的发展历程。
• 强调开源与性能并重的重要性。

华为昇腾技术路线

• 以开源为基础，与社区紧密配合，回馈社区。

昇腾推理架构解析

架构概览

• 华为MindIE推理引擎与业界开源生态引擎（如LLM、TensorFlow TGI、Triton）的对比。

计算架构层

• 对标 CUDA 的计算架构设计。

框架 Plugin 层

• 介绍 vLLM-Ascend 作为 vLLM 框架的 Plugin，实现硬件层适配。

vLLM 核心技术

1. Paged Attention

• 解决内存碎片与显存浪费问题，通过分页内存分配提高资源利用率。

2. Continuous Batching

• 与 Paged Attention 配套使用，提高 GPU/NPU 算力和显存利用率。

3. vLLM-Ascend 插件

• 硬件层适配，屏蔽 GPU 与 NPU 差异，支持无缝迁移。
• 降低二次开发门槛，支持模型零拷贝。

4. 安装与调用流程

5. ACL Graph与性能优化

（1）ACL Graph 概念

• 对标CUDA graph，实现一次捕获、多次重放，减少空泡。

（2）性能优化策略

• 提高系统并行度，减少无法并行部分。
• 介绍 vLLM 如何通过提高应用层系统并行度实现性能提升。

推理精度分析方法

精度分析工具

1. 介绍 OpenCampass、EvalScope、AISBench 等工具。

2. 强调通过跑数据集获取精度指标的方法。

常见问题与解决方案

• 介绍如何通过调整参数和模型设计提高精度。

Badcase 分析

1. 如何定位和分析 Badcase，找出精度不达标的原因。

2. 基于MSProbe工具的精度数据采集

推理性能分析方法

性能分析工具

使用 AISBench 进行性能测评：

• 配置随机数据集
• 指定模型和数据集
• 通过命令行启动性能测评

性能问题定位

性能数据分析

• op_statistic.csv
• trac_view.json

PD 分离场景调优

• PD 分离场景调优：通过解耦预填充（Prefill）与生成（Decode）阶段，突破 KV Cache 导致的吞吐瓶颈。
• 介绍如何通过调整 PD 配比和预期 TPS 来优化系统性能。

vLLM-ascend 推理部署流程

环境准备

• 使用npu-smi info 检查 NPU 驱动固件安装情况。
• 推荐使用 Docker 进行部署。

模型下载与安装

• 介绍如何通过 ModelScope 下载模型。
强调安装 vLLM 与 vLLM-Ascend 的步骤。

离线与在线推理

• 介绍离线与在线推理的使用方式与区别。
• 强调 vLLM-Ascend 与 vLLM 使用方式的一致性。

常用特性与入参介绍

• 环境变量
• 推理参数

注意事项

总结

本文系统介绍了vLLM-ascend推理引擎的整体架构与技术实现。重点包括：1）基于开源生态的昇腾推理架构，通过vLLM插件实现GPU/NPU硬件适配；2）核心技术创新如PagedAttention内存管理和ContinuousBatching批处理优化；3）性能优化策略包括ACLGraph应用和PD阶段解耦；4）完整的精度分析与性能评估方法体系；5）从环境准备到模型部署的全流程实践指南。该方案通过技术创新和工具链整合，显著提升了AI推理的效率和易用性，为昇腾生态提供了高性能的推理解决方案。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

cover

Flutter + 开源鸿蒙跨端实战｜基于空间地理信息的城市全域智慧泊车调度与多维运维管理平台 Day3

人工智能6S服务平台

cover

Flutter+开源鸿蒙全域智慧泊车调度管理平台 Day4 订单全流程闭环+支付核验+会员权益+个人中心开发

人工智能6S服务平台

Flutter 三方库 image_picker 鸿蒙化图片选择器集成

image_picker是 Flutter 生态中用于从相册选择图片或拍摄照片的常用插件。本文基于 OpenHarmony TPC 仓库的适配版本，详细讲解 image_picker 在鸿蒙项目中的接入流程、权限配置和核心 API 使用。

人工智能6S服务平台

所有评论(0)

查看更多评论

Shining0596

已为社区贡献2条内容