DeepSeek-V4-PRO 昇腾910B多机多卡级联及大EP架构部署实操方案

一、方案概述

1.1 文档目的

本文档针对DeepSeek-V4-PRO模型,提供昇腾910B多机多卡级联(分布式部署)及大EP(Extended Processing)架构的标准化部署实操流程,覆盖环境准备、架构配置、模型部署、功能验证、故障处理全环节,为技术实施人员提供可落地的操作指导,确保部署过程平稳高效,充分发挥多机多卡级联的算力优势及大EP架构的性能提升作用,满足生产环境高并发、高吞吐量的推理需求。

1.2 适用范围

本方案适用于基于昇腾910B NPU服务器、部署DeepSeek-V4-PRO模型的场景,涵盖2台及以上服务器的多机多卡级联部署,以及大EP架构的配置与优化,面向技术实施、运维及相关对接人员,要求实施人员具备昇腾环境操作、Linux系统管理、分布式部署基础经验。

1.3 核心前提

1.  硬件环境:2台及以上昇腾910B单机8卡服务器(推荐同型号、同配置),服务器间具备高速互联能力(如RoCE网卡、IB网卡),单台服务器剩余存储空间≥300GB(用于存放模型权重及日志),每台服务器电源、散热正常;

2.  软件环境:所有服务器统一安装CANN套件(≥8.0.5,推荐8.0.5版本,确保多机兼容性)、昇腾驱动(匹配CANN版本),Python版本≥3.10.x(推荐3.10.16),操作系统统一为EulerOS 2.0 SP10或Ubuntu 20.04 LTS;

3.  权限与网络:所有服务器具备root或sudo高权限,服务器间网络通畅(无防火墙拦截、端口限制),可访问ModelScope、清华PyPI源(用于下载模型权重及依赖),多机间实现SSH免密登录;

4.  架构说明:多机多卡级联采用“张量并行+流水线并行”混合并行策略,大EP架构通过扩展处理单元、优化任务调度,提升模型推理的并行效率和吞吐量,两者结合适配DeepSeek-V4-PRO的大参数量、高并发需求。

二、前期准备(全服务器统一执行)

2.1 硬件检查与确认

1.  检查昇腾910B显卡状态:每台服务器执行以下命令,确保所有NPU卡状态为Normal,无故障提示。

bash
# 查看NPU状态(需8张卡均为Normal)
npu-smi info
# 检查NPU温度、功耗(避免硬件过热)
npu-smi info --query-gpu=temperature.gpu,power.draw --format=csv

2.  验证服务器间高速互联:在主服务器(选定1台作为主节点)执行以下命令,测试与其他从服务器的网络延迟,确保延迟≤1ms(RoCE/IB网卡),无丢包。

bash
# 替换xxx.xxx.xxx.xxx为从服务器IP
ping xxx.xxx.xxx.xxx -c 10
# 测试带宽(需安装iperf3)
iperf3 -c xxx.xxx.xxx.xxx -t 30

3.  检查存储空间:确保每台服务器模型存储目录、日志目录剩余空间满足要求。

bash
# 查看/data目录剩余空间(推荐模型存储在/data/models)
df -h | grep /data

2.2 软件环境统一配置

1.  统一CANN版本(若未安装或版本不统一):所有服务器执行以下步骤,升级至CANN 8.0.5版本(参考昇腾官方安装包,对应服务器架构)。

bash
# 1. 卸载原有低版本CANN(若存在)
sudo /usr/local/Ascend/ascend-toolkit/latest/uninstall.sh
# 2. 下载CANN 8.0.5安装包(昇腾官网获取,上传至所有服务器)
# 3. 赋予安装包执行权限
chmod +x Ascend-cann-toolkit_8.0.5_linux-aarch64.run
# 4. 安装CANN 8.0.5(所有服务器安装路径一致)
sudo ./Ascend-cann-toolkit_8.0.5_linux-aarch64.run --run-as=root --install-path=/usr/local/Ascend
# 5. 配置环境变量(永久生效)
echo "source /usr/local/Ascend/ascend-toolkit/latest/set_env.sh" >> ~/.bashrc
source ~/.bashrc
# 6. 验证CANN版本
cat /usr/local/Ascend/version.txt 2>/dev/null || echo "CANN安装失败"

2.  统一Python版本:所有服务器升级Python至3.10.x,确保版本一致。

bash
# EulerOS系统
sudo yum install -y python3.10 python3.10-pip
# Ubuntu系统
sudo apt install -y python3.10 python3.10-pip
# 验证Python版本
python3 --version  # 需输出Python 3.10.x

3.  安装基础工具:所有服务器安装部署所需工具,确保操作一致性。

bash
# EulerOS系统
sudo yum install -y wget curl git iperf3 openssh-server
# Ubuntu系统
sudo apt install -y wget curl git iperf3 openssh-server
# 启动SSH服务(确保多机免密登录)
sudo systemctl start sshd
sudo systemctl enable sshd

2.3 多机免密登录配置(主节点操作)

主节点需实现与所有从节点的SSH免密登录,避免部署过程中频繁输入密码,提升效率。

bash
# 1. 主节点生成SSH密钥(无需设置密码,直接回车)
ssh-keygen -t rsa
# 2. 将公钥分发至所有从节点(替换xxx.xxx.xxx.xxx为从节点IP,root为用户名)
ssh-copy-id root@xxx.xxx.xxx.xxx
# 3. 验证免密登录(无密码即可登录即为成功)
ssh root@xxx.xxx.xxx.xxx

2.4 核心依赖安装(所有服务器统一执行)

安装DeepSeek-V4-PRO部署所需核心依赖,确保版本严格匹配,避免兼容性问题(推荐使用虚拟环境隔离,避免与其他项目冲突)。

bash
# 1. 安装虚拟环境工具
pip3 install virtualenv -i https://pypi.tuna.tsinghua.edu.cn/simple
# 2. 创建DeepSeek-V4-PRO专属虚拟环境(所有服务器路径一致)
virtualenv /root/ds-v4-pro-env
# 3. 激活虚拟环境(后续所有操作均在此环境中执行)
source /root/ds-v4-pro-env/bin/activate
# 4. 设置pip源(加速下载)
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 5. 安装昇腾定制版vLLM(核心依赖,支持多机多卡级联及大EP架构)
pip install vllm-ascend==0.15.0  # 版本需≥0.15.0,支持大EP优化
# 6. 安装核心依赖(版本严格匹配)
pip install transformers==4.40.0 sentencepiece==0.1.99 accelerate==0.30.0 numpy==1.26.4
# 7. 安装接口服务依赖(用于模型推理接口暴露)
pip install fastapi==0.109.2 uvicorn==0.27.1 requests==2.31.0
# 8. 安装昇腾定制版PyTorch(适配CANN 8.0.5及多机多卡)
pip install torch==2.3.0 torch-npu==2.3.0 -f https://download.openmmlab.com/mmcv/dist/ascend/torch2.3.0/index.html
# 9. 安装ModelScope(用于下载DeepSeek-V4-PRO模型权重)
pip install modelscope==1.11.0
# 10. 安装多机通信依赖(支持多机级联)
pip install mpi4py==3.1.4

2.5 模型权重下载(主节点执行,同步至所有从节点)

DeepSeek-V4-PRO模型权重较大,仅在主节点下载,再同步至所有从节点,确保所有服务器模型权重一致、路径统一。

bash
# 1. 激活虚拟环境
source /root/ds-v4-pro-env/bin/activate
# 2. 创建模型存储目录(所有服务器路径一致)
mkdir -p /data/models/DeepSeek-V4-PRO
chmod 777 /data/models/DeepSeek-V4-PRO
# 3. 从ModelScope下载DeepSeek-V4-PRO权重(昇腾适配版)
modelscope download --model vllm-ascend/DeepSeek-V4-PRO --local-dir /data/models/DeepSeek-V4-PRO
# 4. 验证权重文件完整性(确保核心文件齐全)
ls /data/models/DeepSeek-V4-PRO | grep -E "config.json|model.safetensors|tokenizer.json"
# 5. 将模型权重同步至所有从节点(替换xxx.xxx.xxx.xxx为从节点IP)
scp -r /data/models/DeepSeek-V4-PRO root@xxx.xxx.xxx.xxx:/data/models/

三、多机多卡级联配置(核心步骤)

3.1 级联架构规划

以2台昇腾910B单机8卡服务器(主节点+1台从节点)为例,规划并行策略(多台从节点配置类似,按实际服务器数量调整):

1.  并行策略:采用“张量并行(Tensor Parallelism)+ 流水线并行(Pipeline Parallelism)”混合并行,充分利用多机多卡算力;

2.  节点分配:主节点(IP:192.168.1.10):8张NPU卡,承担主进程调度、模型部分层的计算;从节点(IP:192.168.1.11):8张NPU卡,承担模型剩余层的计算,与主节点协同完成推理;

3.  端口规划:主节点暴露推理接口端口(8000),所有节点内部通信端口(29500-29510,默认无需修改,确保无端口冲突);

4.  路径规划:所有节点模型路径、虚拟环境路径、日志路径完全一致,避免路径错误导致级联失败。

3.2 多机通信配置(所有节点执行)

配置多机间通信参数,确保主从节点能够正常通信,支持分布式张量并行和流水线并行。

bash
# 1. 配置环境变量(永久生效,适配多机通信及大EP架构)
echo "export ASCEND_GLOBAL_WORKSPACE_SIZE=8192" >> ~/.bashrc  # 增大工作空间,适配大EP
echo "export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True" >> ~/.bashrc
echo "export ASCEND_GLOBAL_LOG_LEVEL=3" >> ~/.bashrc
echo "export OMP_NUM_THREADS=32" >> ~/.bashrc  # 适配多机多卡,提升CPU利用率
echo "export ASCEND_ENABLE_MOE_OPTIMIZE=1" >> ~/.bashrc  # 开启MoE优化(DeepSeek-V4-PRO支持MoE)
echo "export ASCEND_NPU_LAUNCH_MODE=0" >> ~/.bashrc
echo "export MASTER_ADDR=192.168.1.10" >> ~/.bashrc  # 主节点IP,所有节点统一配置
echo "export MASTER_PORT=29500" >> ~/.bashrc  # 主节点通信端口,所有节点统一配置
echo "export WORLD_SIZE=16" >> ~/.bashrc  # 总GPU数量(2台×8卡=16,按实际服务器数量调整)
# 2. 立即生效环境变量
source ~/.bashrc

3.3 级联启动脚本编写(主节点执行)

编写多机多卡级联启动脚本,统一调度主从节点,配置并行参数、模型路径、接口参数等,脚本路径统一为/root/ds-v4-pro-start.sh。

bash
#!/bin/bash
# DeepSeek-V4-PRO 多机多卡级联启动脚本(主节点执行)
# 激活虚拟环境
source /root/ds-v4-pro-env/bin/activate

# 定义节点IP列表(主节点在前,从节点在后,按实际服务器数量添加)
NODES=("192.168.1.10" "192.168.1.11")
# 每个节点的GPU数量(单台8卡,无需修改)
GPUS_PER_NODE=8
# 总GPU数量(节点数×单节点GPU数)
TOTAL_GPUS=${#NODES[@]}×$GPUS_PER_NODE

# 启动多机多卡级联服务(前台调试,无异常后改为后台启动)
mpirun -np $TOTAL_GPUS \
  --allow-run-as-root \
  --host ${NODES[*]} \
  --map-by node \
  --mca btl_tcp_if_include 192.168.1.0/24 \  # 适配本地网段,避免通信异常
  vllm serve /data/models/DeepSeek-V4-PRO \
  --tensor-parallel-size $GPUS_PER_NODE \  # 单节点张量并行数(8卡)
  --pipeline-parallel-size ${#NODES[@]} \  # 流水线并行数(节点数)
  --max-model-len 16384 \  # 适配DeepSeek-V4-PRO长文本推理
  --npu-memory-utilization 0.8 \  # 显存利用率,多机级联建议0.75-0.85
  --port 8000 \  # 主节点推理接口端口
  --host 0.0.0.0 \  # 允许外部访问
  --enable-moe-optimization \  # 开启MoE优化
  --disable-log-requests  # 关闭请求日志(生产环境可开启)

脚本权限配置:

bash
chmod +x /root/ds-v4-pro-start.sh

3.4 多机级联启动与验证(主节点执行)

1.  前台调试启动:先以前台模式启动,验证主从节点通信及服务启动情况,无报错再切换至后台常驻。

bash
/root/ds-v4-pro-start.sh

启动成功标志:所有节点日志输出“Started server process [xxxx]”“Uvicorn running on http://0.0.0.0:8000”,无“通信超时”“算子报错”“显存溢出”等信息,主节点可正常接收请求。

2.  后台常驻启动(生产环境):修改启动脚本,添加nohup命令,将日志输出至指定目录,确保服务后台稳定运行。

bash
# 1. 创建日志目录(所有节点统一路径)
mkdir -p /data/logs/ds-v4-pro
chmod 777 /data/logs/ds-v4-pro
# 2. 后台启动脚本(主节点执行)
nohup /root/ds-v4-pro-start.sh > /data/logs/ds-v4-pro/run.log 2>&1 &
# 3. 验证服务启动成功(主节点查看进程)
ps -ef | grep vllm | grep -v grep
# 4. 查看日志,确认无异常
tail -f /data/logs/ds-v4-pro/run.log

3.  多机通信验证:在主节点执行curl命令,验证模型推理功能正常,且多机协同工作。

bash
curl http://192.168.1.10:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "DeepSeek-V4-PRO",
  "messages": [
    {"role": "user", "content": "详细介绍昇腾910B多机多卡级联的优势及应用场景"}
  ],
  "temperature": 0.7,
  "max_tokens": 1024,
  "top_p": 0.9
}'

验证要点:响应速度≤2s,输出内容准确流畅,无报错信息;同时在从节点查看日志,确认从节点参与计算(日志有“forward pass”相关输出)。

四、大EP架构配置(优化提升)

4.1 大EP架构说明

大EP(Extended Processing)架构是昇腾910B针对大参数量模型优化的一种扩展处理模式,通过扩展处理单元、优化任务调度和数据传输,减少多机多卡间的通信开销,提升模型推理的吞吐量和并发能力,尤其适配DeepSeek-V4-PRO这类大参数量、高并发需求的模型。

大EP架构配置需基于多机多卡级联基础,无需额外硬件改造,仅通过软件参数配置即可启用。

4.2 大EP架构参数配置(所有节点执行)

修改环境变量,添加大EP架构相关配置,优化任务调度和通信效率,所有节点配置需完全一致。

bash
# 1. 添加大EP架构环境变量(永久生效)
echo "export ASCEND_ENABLE_EXTENDED_PROCESSING=1" >> ~/.bashrc  # 开启大EP架构
echo "export ASCEND_EP_PARALLEL_LEVEL=2" >> ~/.bashrc  # EP并行级别(与节点数一致,2节点设为2)
echo "export ASCEND_EP_TASK_SCHEDULE_MODE=1" >> ~/.bashrc  # 任务调度模式(1为优化模式)
echo "export ASCEND_EP_DATA_TRANSFER_OPTIMIZE=1" >> ~/.bashrc  # 开启数据传输优化
# 2. 生效环境变量
source ~/.bashrc

4.3 大EP架构启动与优化(主节点执行)

1.  修改多机级联启动脚本,添加大EP相关启动参数,优化推理性能:

bash
# 编辑启动脚本
vim /root/ds-v4-pro-start.sh
# 在vllm serve命令后添加以下参数
--enable-extended-processing \  # 开启大EP优化
--ep-parallel-level 2 \  # 与ASCEND_EP_PARALLEL_LEVEL一致
--ep-task-schedule-mode 1

2.  重启服务,使大EP配置生效:

bash
# 停止原有服务
ps -ef | grep vllm | grep -v grep | awk '{print $2}' | xargs kill -9
# 后台重启服务
nohup /root/ds-v4-pro-start.sh > /data/logs/ds-v4-pro/run.log 2>&1 &
# 查看日志,确认大EP架构启用成功(日志含“Extended Processing enabled”)
tail -f /data/logs/ds-v4-pro/run.log

3.  大EP架构性能优化建议:

(1)根据服务器数量调整EP并行级别,确保与节点数一致(如3台节点设为3);

(2)若出现通信延迟过高,可调整ASCEND_EP_DATA_TRANSFER_OPTIMIZE=2,进一步优化数据传输;

(3)显存压力较大时,可降低npu-memory-utilization至0.75,同时开启显存碎片整理(添加--enable-memory-fragmentation-reduction参数);

(4)高并发场景下,可调整--max-num-batched-tokens参数(推荐设为8192),提升批处理效率。

五、功能验证与性能测试

5.1 基础功能验证

1.  接口调用验证:主节点执行curl命令,验证模型推理、多轮对话、长文本处理等核心功能正常。

bash
# 多轮对话验证
curl http://192.168.1.10:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "DeepSeek-V4-PRO",
  "messages": [
    {"role": "user", "content": "什么是昇腾910B多机多卡级联?"},
    {"role": "assistant", "content": "昇腾910B多机多卡级联是指将多台昇腾910B单机8卡服务器通过高速网络连接,协同完成模型推理或训练任务的部署方式,通过并行计算充分发挥多台服务器的算力优势,提升模型处理效率和吞吐量。"},
    {"role": "user", "content": "它与单机8卡相比,优势在哪里?"}
  ],
  "temperature": 0.7,
  "max_tokens": 1024,
  "top_p": 0.9
}'

2.  故障转移验证(可选):手动停止某一台从节点的vllm进程,验证主节点是否能自动调整任务分配,服务不中断(需开启容错机制,添加--enable-fault-tolerance参数)。

5.2 性能测试

针对多机多卡级联+大EP架构,测试核心性能指标,确保满足生产环境需求,测试工具推荐使用ab、locust等。

bash
# 1. 并发性能测试(模拟20并发请求,测试吞吐量)
ab -n 100 -c 20 -T application/json -p request.json http://192.168.1.10:8000/v1/chat/completions
# (request.json为请求体文件,内容与上述curl命令的-d参数一致)

# 2. 显存与CPU占用测试(主从节点均执行)
# 查看NPU显存占用(单卡应低于55GB)
npu-smi info --query-gpu=memory.used,memory.total --format=csv
# 查看CPU占用率
top -p $(ps -ef | grep vllm | grep -v grep | awk '{print $2}')

# 3. 响应速度测试(统计首包响应时间和平均响应时间)
curl -w "首包响应时间: %{time_starttransfer}s\n总响应时间: %{time_total}s\n" -H "Content-Type: application/json" -d @request.json http://192.168.1.10:8000/v1/chat/completions

性能达标标准(2台8卡+大EP架构):

(1)并发能力:支持20-30并发请求,无报错、无卡顿;

(2)响应速度:首包响应时间≤2s,平均响应时间≤5s;

(3)显存占用:单卡显存占用≤55GB,无显存溢出;

(4)吞吐量:≥30 token/s(单并发),并发越高,吞吐量提升越明显。

六、全流程注意事项

6.1 部署前注意事项

1.  硬件一致性:所有服务器需为同型号、同配置的昇腾910B服务器,避免硬件差异导致通信异常或性能不均衡;

2.  软件版本统一:所有服务器的CANN、昇腾驱动、Python、核心依赖版本必须完全一致,否则会出现兼容性问题;

3.  网络检查:确保服务器间高速互联(RoCE/IB网卡),无防火墙拦截通信端口(29500-29510、8000等);

4.  备份准备:部署前备份所有服务器的环境配置、启动脚本,避免操作失误导致环境损坏;

5.  权限确认:所有服务器必须具备root/sudo权限,避免因权限不足导致部署失败。

6.2 部署中注意事项

1.  路径统一:所有服务器的虚拟环境路径、模型路径、日志路径、启动脚本路径必须完全一致,否则会导致多机级联失败;

2.  环境变量配置:所有节点的环境变量(尤其是MASTER_ADDR、MASTER_PORT、WORLD_SIZE)必须统一,避免通信异常;

3.  启动顺序:必须先在所有节点配置好环境、同步好模型权重,再在主节点执行启动脚本,不可单独启动某一台节点;

4.  报错处理:部署过程中若出现“通信超时”,检查服务器间网络及SSH免密登录;若出现“算子报错”,检查CANN版本及依赖版本;若出现“显存溢出”,降低显存利用率或调整并行策略;

5.  前台调试:建议先以前台模式启动,确认无异常后再切换至后台常驻,便于排查启动过程中的问题。

6.3 部署后注意事项

1.  性能监控:接入Prometheus + Grafana监控所有节点的NPU显存、CPU、内存占用,以及网络延迟、吞吐量,设置告警阈值,及时发现异常;

2.  日志管理:定期清理日志目录(/data/logs/ds-v4-pro),避免占用过多存储空间,建议保留7天内的日志,便于故障排查;

3.  权限管控:限制模型目录、日志目录、启动脚本的访问权限,仅授权用户可读写,保障数据安全;

4.  版本固化:锁定核心依赖版本,避免后续升级导致兼容性问题,若需升级,需先在测试环境验证;

5.  冗余备份:部署后7天内,保留模型权重、环境配置的备份,若出现服务异常,可快速回滚;

6.  定期维护:每周检查一次服务器硬件状态、网络通信、服务运行情况,及时处理潜在故障。

6.4 常见故障排查

1.  多机通信失败:检查MASTER_ADDR、MASTER_PORT配置是否正确,服务器间SSH免密登录是否正常,网络是否通畅,防火墙是否拦截端口;

2.  启动时报“MoE operator not found”:检查ASCEND_ENABLE_MOE_OPTIMIZE环境变量是否设为1,vllm-ascend版本是否≥0.15.0;

3.  显存溢出(OOM error):检查所有节点的vllm进程是否完全停止,降低npu-memory-utilization参数,缩短max-model-len,或调整并行策略;

4.  大EP架构启用失败:检查ASCEND_ENABLE_EXTENDED_PROCESSING环境变量是否设为1,EP并行级别是否与节点数一致;

5.  响应速度慢、吞吐量低:检查网络延迟是否过高,大EP配置是否优化,并行参数是否合理,可调整OMP_NUM_THREADS、max-num-batched-tokens参数;

6.  服务崩溃:查看日志排查具体报错,若为依赖冲突,重新安装指定版本依赖;若为硬件故障,检查NPU状态及服务器散热。

七、附录(补充说明)

附录1:常用命令汇总

bash
# 服务管理
ps -ef | grep vllm            # 查看vllm进程
kill -9 进程ID                # 停止vllm进程
nohup ... > log.log 2>&1 &   # 后台启动服务
tail -f /data/logs/ds-v4-pro/run.log  # 查看服务日志

# 多机通信
ssh root@xxx.xxx.xxx.xxx      # 登录从节点
scp -r 源路径 root@xxx.xxx.xxx.xxx:目标路径  # 同步文件
ping xxx.xxx.xxx.xxx -c 10    # 测试网络延迟
iperf3 -c xxx.xxx.xxx.xxx -t 30  # 测试网络带宽

# 环境与硬件检查
npu-smi info                  # 查看NPU状态
cat /usr/local/Ascend/version.txt  # 查看CANN版本
python3 --version             # 查看Python版本
df -h | grep /data            # 查看存储空间

# 模型管理
modelscope download --model 模型名 --local-dir 路径  # 下载模型
ls /data/models/DeepSeek-V4-PRO | grep -E "config.json|model.safetensors"  # 验证模型完整性

附录2:回滚方案

若部署过程中出现无法解决的故障,需执行回滚操作,恢复至部署前状态:

bash
# 1. 所有节点停止vllm进程
ps -ef | grep vllm | grep -v grep | awk '{print $2}' | xargs kill -9
# 2. 退出虚拟环境
deactivate
# 3. 恢复环境变量(删除部署时添加的环境变量)
vim ~/.bashrc  # 删除新增的ASCEND_*、MASTER_*、WORLD_SIZE等环境变量
source ~/.bashrc
# 4. (可选)删除模型权重、虚拟环境、日志目录
rm -rf /data/models/DeepSeek-V4-PRO
rm -rf /root/ds-v4-pro-env
rm -rf /data/logs/ds-v4-pro

附录3:免责声明

1.  本文档基于DeepSeek-V4-PRO模型、昇腾910B多机多卡(2台8卡)、CANN 8.0.5环境编写,若服务器数量、硬件配置、软件版本存在差异,需相应调整配置参数;

2.  部署过程中需严格按照文档步骤操作,若因操作不当导致服务器故障、数据丢失或业务中断,本文档作者不承担相关责任;

3.  模型权重版权归DeepSeek团队所有,部署与使用需遵守相关许可协议,严禁用于非法用途;

4.  若遇到文档未覆盖的故障,可参考昇腾官方文档、vLLM-Ascend官方文档,或联系技术支持。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐