DeepSeek-V4-PRO 昇腾910B多机多卡级联及大EP架构部署实操方案

本文档针对DeepSeek-V4-PRO模型，提供昇腾910B多机多卡级联（分布式部署）及大EP（Extended Processing）架构的标准化部署实操流程，覆盖环境准备、架构配置、模型部署、功能验证、故障处理全环节，为技术实施人员提供可落地的操作指导，确保部署过程平稳高效，充分发挥多机多卡级联的算力优势及大EP架构的性能提升作用，满足生产环境高并发、高吞吐量的推理需求。

姜余峰

78人浏览 · 2026-04-28 01:24:29

姜余峰 · 2026-04-28 01:24:29 发布

DeepSeek-V4-PRO 昇腾910B多机多卡级联及大EP架构部署实操方案

一、方案概述

1.1 文档目的

1.2 适用范围

本方案适用于基于昇腾910B NPU服务器、部署DeepSeek-V4-PRO模型的场景，涵盖2台及以上服务器的多机多卡级联部署，以及大EP架构的配置与优化，面向技术实施、运维及相关对接人员，要求实施人员具备昇腾环境操作、Linux系统管理、分布式部署基础经验。

1.3 核心前提

1. 硬件环境：2台及以上昇腾910B单机8卡服务器（推荐同型号、同配置），服务器间具备高速互联能力（如RoCE网卡、IB网卡），单台服务器剩余存储空间≥300GB（用于存放模型权重及日志），每台服务器电源、散热正常；

2. 软件环境：所有服务器统一安装CANN套件（≥8.0.5，推荐8.0.5版本，确保多机兼容性）、昇腾驱动（匹配CANN版本），Python版本≥3.10.x（推荐3.10.16），操作系统统一为EulerOS 2.0 SP10或Ubuntu 20.04 LTS；

3. 权限与网络：所有服务器具备root或sudo高权限，服务器间网络通畅（无防火墙拦截、端口限制），可访问ModelScope、清华PyPI源（用于下载模型权重及依赖），多机间实现SSH免密登录；

4. 架构说明：多机多卡级联采用“张量并行+流水线并行”混合并行策略，大EP架构通过扩展处理单元、优化任务调度，提升模型推理的并行效率和吞吐量，两者结合适配DeepSeek-V4-PRO的大参数量、高并发需求。

二、前期准备（全服务器统一执行）

2.1 硬件检查与确认

1. 检查昇腾910B显卡状态：每台服务器执行以下命令，确保所有NPU卡状态为Normal，无故障提示。

bash
# 查看NPU状态（需8张卡均为Normal）
npu-smi info
# 检查NPU温度、功耗（避免硬件过热）
npu-smi info --query-gpu=temperature.gpu,power.draw --format=csv

2. 验证服务器间高速互联：在主服务器（选定1台作为主节点）执行以下命令，测试与其他从服务器的网络延迟，确保延迟≤1ms（RoCE/IB网卡），无丢包。

bash
# 替换xxx.xxx.xxx.xxx为从服务器IP
ping xxx.xxx.xxx.xxx -c 10
# 测试带宽（需安装iperf3）
iperf3 -c xxx.xxx.xxx.xxx -t 30

3. 检查存储空间：确保每台服务器模型存储目录、日志目录剩余空间满足要求。

bash
# 查看/data目录剩余空间（推荐模型存储在/data/models）
df -h | grep /data

2.2 软件环境统一配置

1. 统一CANN版本（若未安装或版本不统一）：所有服务器执行以下步骤，升级至CANN 8.0.5版本（参考昇腾官方安装包，对应服务器架构）。

bash
# 1. 卸载原有低版本CANN（若存在）
sudo /usr/local/Ascend/ascend-toolkit/latest/uninstall.sh
# 2. 下载CANN 8.0.5安装包（昇腾官网获取，上传至所有服务器）
# 3. 赋予安装包执行权限
chmod +x Ascend-cann-toolkit_8.0.5_linux-aarch64.run
# 4. 安装CANN 8.0.5（所有服务器安装路径一致）
sudo ./Ascend-cann-toolkit_8.0.5_linux-aarch64.run --run-as=root --install-path=/usr/local/Ascend
# 5. 配置环境变量（永久生效）
echo "source /usr/local/Ascend/ascend-toolkit/latest/set_env.sh" >> ~/.bashrc
source ~/.bashrc
# 6. 验证CANN版本
cat /usr/local/Ascend/version.txt 2>/dev/null || echo "CANN安装失败"

2. 统一Python版本：所有服务器升级Python至3.10.x，确保版本一致。

bash
# EulerOS系统
sudo yum install -y python3.10 python3.10-pip
# Ubuntu系统
sudo apt install -y python3.10 python3.10-pip
# 验证Python版本
python3 --version # 需输出Python 3.10.x

3. 安装基础工具：所有服务器安装部署所需工具，确保操作一致性。

bash
# EulerOS系统
sudo yum install -y wget curl git iperf3 openssh-server
# Ubuntu系统
sudo apt install -y wget curl git iperf3 openssh-server
# 启动SSH服务（确保多机免密登录）
sudo systemctl start sshd
sudo systemctl enable sshd

2.3 多机免密登录配置（主节点操作）

主节点需实现与所有从节点的SSH免密登录，避免部署过程中频繁输入密码，提升效率。

bash
# 1. 主节点生成SSH密钥（无需设置密码，直接回车）
ssh-keygen -t rsa
# 2. 将公钥分发至所有从节点（替换xxx.xxx.xxx.xxx为从节点IP，root为用户名）
ssh-copy-id root@xxx.xxx.xxx.xxx
# 3. 验证免密登录（无密码即可登录即为成功）
ssh root@xxx.xxx.xxx.xxx

2.4 核心依赖安装（所有服务器统一执行）

安装DeepSeek-V4-PRO部署所需核心依赖，确保版本严格匹配，避免兼容性问题（推荐使用虚拟环境隔离，避免与其他项目冲突）。

bash
# 1. 安装虚拟环境工具
pip3 install virtualenv -i https://pypi.tuna.tsinghua.edu.cn/simple
# 2. 创建DeepSeek-V4-PRO专属虚拟环境（所有服务器路径一致）
virtualenv /root/ds-v4-pro-env
# 3. 激活虚拟环境（后续所有操作均在此环境中执行）
source /root/ds-v4-pro-env/bin/activate
# 4. 设置pip源（加速下载）
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 5. 安装昇腾定制版vLLM（核心依赖，支持多机多卡级联及大EP架构）
pip install vllm-ascend==0.15.0 # 版本需≥0.15.0，支持大EP优化
# 6. 安装核心依赖（版本严格匹配）
pip install transformers==4.40.0 sentencepiece==0.1.99 accelerate==0.30.0 numpy==1.26.4
# 7. 安装接口服务依赖（用于模型推理接口暴露）
pip install fastapi==0.109.2 uvicorn==0.27.1 requests==2.31.0
# 8. 安装昇腾定制版PyTorch（适配CANN 8.0.5及多机多卡）
pip install torch==2.3.0 torch-npu==2.3.0 -f https://download.openmmlab.com/mmcv/dist/ascend/torch2.3.0/index.html
# 9. 安装ModelScope（用于下载DeepSeek-V4-PRO模型权重）
pip install modelscope==1.11.0
# 10. 安装多机通信依赖（支持多机级联）
pip install mpi4py==3.1.4

2.5 模型权重下载（主节点执行，同步至所有从节点）

DeepSeek-V4-PRO模型权重较大，仅在主节点下载，再同步至所有从节点，确保所有服务器模型权重一致、路径统一。

bash
# 1. 激活虚拟环境
source /root/ds-v4-pro-env/bin/activate
# 2. 创建模型存储目录（所有服务器路径一致）
mkdir -p /data/models/DeepSeek-V4-PRO
chmod 777 /data/models/DeepSeek-V4-PRO
# 3. 从ModelScope下载DeepSeek-V4-PRO权重（昇腾适配版）
modelscope download --model vllm-ascend/DeepSeek-V4-PRO --local-dir /data/models/DeepSeek-V4-PRO
# 4. 验证权重文件完整性（确保核心文件齐全）
ls /data/models/DeepSeek-V4-PRO | grep -E "config.json|model.safetensors|tokenizer.json"
# 5. 将模型权重同步至所有从节点（替换xxx.xxx.xxx.xxx为从节点IP）
scp -r /data/models/DeepSeek-V4-PRO root@xxx.xxx.xxx.xxx:/data/models/

三、多机多卡级联配置（核心步骤）

3.1 级联架构规划

以2台昇腾910B单机8卡服务器（主节点+1台从节点）为例，规划并行策略（多台从节点配置类似，按实际服务器数量调整）：

1. 并行策略：采用“张量并行（Tensor Parallelism）+ 流水线并行（Pipeline Parallelism）”混合并行，充分利用多机多卡算力；

2. 节点分配：主节点（IP：192.168.1.10）：8张NPU卡，承担主进程调度、模型部分层的计算；从节点（IP：192.168.1.11）：8张NPU卡，承担模型剩余层的计算，与主节点协同完成推理；

3. 端口规划：主节点暴露推理接口端口（8000），所有节点内部通信端口（29500-29510，默认无需修改，确保无端口冲突）；

4. 路径规划：所有节点模型路径、虚拟环境路径、日志路径完全一致，避免路径错误导致级联失败。

3.2 多机通信配置（所有节点执行）

配置多机间通信参数，确保主从节点能够正常通信，支持分布式张量并行和流水线并行。

bash
# 1. 配置环境变量（永久生效，适配多机通信及大EP架构）
echo "export ASCEND_GLOBAL_WORKSPACE_SIZE=8192" >> ~/.bashrc # 增大工作空间，适配大EP
echo "export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True" >> ~/.bashrc
echo "export ASCEND_GLOBAL_LOG_LEVEL=3" >> ~/.bashrc
echo "export OMP_NUM_THREADS=32" >> ~/.bashrc # 适配多机多卡，提升CPU利用率
echo "export ASCEND_ENABLE_MOE_OPTIMIZE=1" >> ~/.bashrc # 开启MoE优化（DeepSeek-V4-PRO支持MoE）
echo "export ASCEND_NPU_LAUNCH_MODE=0" >> ~/.bashrc
echo "export MASTER_ADDR=192.168.1.10" >> ~/.bashrc # 主节点IP，所有节点统一配置
echo "export MASTER_PORT=29500" >> ~/.bashrc # 主节点通信端口，所有节点统一配置
echo "export WORLD_SIZE=16" >> ~/.bashrc # 总GPU数量（2台×8卡=16，按实际服务器数量调整）
# 2. 立即生效环境变量
source ~/.bashrc

3.3 级联启动脚本编写（主节点执行）

编写多机多卡级联启动脚本，统一调度主从节点，配置并行参数、模型路径、接口参数等，脚本路径统一为/root/ds-v4-pro-start.sh。

bash
#!/bin/bash
# DeepSeek-V4-PRO 多机多卡级联启动脚本（主节点执行）
# 激活虚拟环境
source /root/ds-v4-pro-env/bin/activate

# 定义节点IP列表（主节点在前，从节点在后，按实际服务器数量添加）
NODES=("192.168.1.10" "192.168.1.11")
# 每个节点的GPU数量（单台8卡，无需修改）
GPUS_PER_NODE=8
# 总GPU数量（节点数×单节点GPU数）
TOTAL_GPUS=${#NODES[@]}×$GPUS_PER_NODE

# 启动多机多卡级联服务（前台调试，无异常后改为后台启动）
mpirun -np $TOTAL_GPUS \
  --allow-run-as-root \
  --host ${NODES[*]} \
  --map-by node \
  --mca btl_tcp_if_include 192.168.1.0/24 \ # 适配本地网段，避免通信异常
  vllm serve /data/models/DeepSeek-V4-PRO \
  --tensor-parallel-size $GPUS_PER_NODE \ # 单节点张量并行数（8卡）
  --pipeline-parallel-size ${#NODES[@]} \ # 流水线并行数（节点数）
  --max-model-len 16384 \ # 适配DeepSeek-V4-PRO长文本推理
  --npu-memory-utilization 0.8 \ # 显存利用率，多机级联建议0.75-0.85
  --port 8000 \ # 主节点推理接口端口
  --host 0.0.0.0 \ # 允许外部访问
  --enable-moe-optimization \ # 开启MoE优化
  --disable-log-requests # 关闭请求日志（生产环境可开启）

脚本权限配置：

bash
chmod +x /root/ds-v4-pro-start.sh

3.4 多机级联启动与验证（主节点执行）

1. 前台调试启动：先以前台模式启动，验证主从节点通信及服务启动情况，无报错再切换至后台常驻。

bash
/root/ds-v4-pro-start.sh

启动成功标志：所有节点日志输出“Started server process [xxxx]”“Uvicorn running on http://0.0.0.0:8000”，无“通信超时”“算子报错”“显存溢出”等信息，主节点可正常接收请求。

2. 后台常驻启动（生产环境）：修改启动脚本，添加nohup命令，将日志输出至指定目录，确保服务后台稳定运行。

bash
# 1. 创建日志目录（所有节点统一路径）
mkdir -p /data/logs/ds-v4-pro
chmod 777 /data/logs/ds-v4-pro
# 2. 后台启动脚本（主节点执行）
nohup /root/ds-v4-pro-start.sh > /data/logs/ds-v4-pro/run.log 2>&1 &
# 3. 验证服务启动成功（主节点查看进程）
ps -ef | grep vllm | grep -v grep
# 4. 查看日志，确认无异常
tail -f /data/logs/ds-v4-pro/run.log

3. 多机通信验证：在主节点执行curl命令，验证模型推理功能正常，且多机协同工作。

bash
curl http://192.168.1.10:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "DeepSeek-V4-PRO",
  "messages": [
    {"role": "user", "content": "详细介绍昇腾910B多机多卡级联的优势及应用场景"}
  ],
  "temperature": 0.7,
  "max_tokens": 1024,
  "top_p": 0.9
}'

验证要点：响应速度≤2s，输出内容准确流畅，无报错信息；同时在从节点查看日志，确认从节点参与计算（日志有“forward pass”相关输出）。

四、大EP架构配置（优化提升）

4.1 大EP架构说明

大EP（Extended Processing）架构是昇腾910B针对大参数量模型优化的一种扩展处理模式，通过扩展处理单元、优化任务调度和数据传输，减少多机多卡间的通信开销，提升模型推理的吞吐量和并发能力，尤其适配DeepSeek-V4-PRO这类大参数量、高并发需求的模型。

大EP架构配置需基于多机多卡级联基础，无需额外硬件改造，仅通过软件参数配置即可启用。

4.2 大EP架构参数配置（所有节点执行）

修改环境变量，添加大EP架构相关配置，优化任务调度和通信效率，所有节点配置需完全一致。

bash
# 1. 添加大EP架构环境变量（永久生效）
echo "export ASCEND_ENABLE_EXTENDED_PROCESSING=1" >> ~/.bashrc # 开启大EP架构
echo "export ASCEND_EP_PARALLEL_LEVEL=2" >> ~/.bashrc # EP并行级别（与节点数一致，2节点设为2）
echo "export ASCEND_EP_TASK_SCHEDULE_MODE=1" >> ~/.bashrc # 任务调度模式（1为优化模式）
echo "export ASCEND_EP_DATA_TRANSFER_OPTIMIZE=1" >> ~/.bashrc # 开启数据传输优化
# 2. 生效环境变量
source ~/.bashrc

4.3 大EP架构启动与优化（主节点执行）

1. 修改多机级联启动脚本，添加大EP相关启动参数，优化推理性能：

bash
# 编辑启动脚本
vim /root/ds-v4-pro-start.sh
# 在vllm serve命令后添加以下参数
--enable-extended-processing \ # 开启大EP优化
--ep-parallel-level 2 \ # 与ASCEND_EP_PARALLEL_LEVEL一致
--ep-task-schedule-mode 1

2. 重启服务，使大EP配置生效：

bash
# 停止原有服务
ps -ef | grep vllm | grep -v grep | awk '{print $2}' | xargs kill -9
# 后台重启服务
nohup /root/ds-v4-pro-start.sh > /data/logs/ds-v4-pro/run.log 2>&1 &
# 查看日志，确认大EP架构启用成功（日志含“Extended Processing enabled”）
tail -f /data/logs/ds-v4-pro/run.log

3. 大EP架构性能优化建议：

（1）根据服务器数量调整EP并行级别，确保与节点数一致（如3台节点设为3）；

（2）若出现通信延迟过高，可调整ASCEND_EP_DATA_TRANSFER_OPTIMIZE=2，进一步优化数据传输；

（3）显存压力较大时，可降低npu-memory-utilization至0.75，同时开启显存碎片整理（添加--enable-memory-fragmentation-reduction参数）；

（4）高并发场景下，可调整--max-num-batched-tokens参数（推荐设为8192），提升批处理效率。

五、功能验证与性能测试

5.1 基础功能验证

1. 接口调用验证：主节点执行curl命令，验证模型推理、多轮对话、长文本处理等核心功能正常。

bash
# 多轮对话验证
curl http://192.168.1.10:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "DeepSeek-V4-PRO",
  "messages": [
    {"role": "user", "content": "什么是昇腾910B多机多卡级联？"},
    {"role": "assistant", "content": "昇腾910B多机多卡级联是指将多台昇腾910B单机8卡服务器通过高速网络连接，协同完成模型推理或训练任务的部署方式，通过并行计算充分发挥多台服务器的算力优势，提升模型处理效率和吞吐量。"},
    {"role": "user", "content": "它与单机8卡相比，优势在哪里？"}
  ],
  "temperature": 0.7,
  "max_tokens": 1024,
  "top_p": 0.9
}'

2. 故障转移验证（可选）：手动停止某一台从节点的vllm进程，验证主节点是否能自动调整任务分配，服务不中断（需开启容错机制，添加--enable-fault-tolerance参数）。

5.2 性能测试

针对多机多卡级联+大EP架构，测试核心性能指标，确保满足生产环境需求，测试工具推荐使用ab、locust等。

bash
# 1. 并发性能测试（模拟20并发请求，测试吞吐量）
ab -n 100 -c 20 -T application/json -p request.json http://192.168.1.10:8000/v1/chat/completions
# （request.json为请求体文件，内容与上述curl命令的-d参数一致）

# 2. 显存与CPU占用测试（主从节点均执行）
# 查看NPU显存占用（单卡应低于55GB）
npu-smi info --query-gpu=memory.used,memory.total --format=csv
# 查看CPU占用率
top -p $(ps -ef | grep vllm | grep -v grep | awk '{print $2}')

# 3. 响应速度测试（统计首包响应时间和平均响应时间）
curl -w "首包响应时间: %{time_starttransfer}s\n总响应时间: %{time_total}s\n" -H "Content-Type: application/json" -d @request.json http://192.168.1.10:8000/v1/chat/completions

性能达标标准（2台8卡+大EP架构）：

（1）并发能力：支持20-30并发请求，无报错、无卡顿；

（2）响应速度：首包响应时间≤2s，平均响应时间≤5s；

（3）显存占用：单卡显存占用≤55GB，无显存溢出；

（4）吞吐量：≥30 token/s（单并发），并发越高，吞吐量提升越明显。

六、全流程注意事项

6.1 部署前注意事项

1. 硬件一致性：所有服务器需为同型号、同配置的昇腾910B服务器，避免硬件差异导致通信异常或性能不均衡；

2. 软件版本统一：所有服务器的CANN、昇腾驱动、Python、核心依赖版本必须完全一致，否则会出现兼容性问题；

3. 网络检查：确保服务器间高速互联（RoCE/IB网卡），无防火墙拦截通信端口（29500-29510、8000等）；

4. 备份准备：部署前备份所有服务器的环境配置、启动脚本，避免操作失误导致环境损坏；

5. 权限确认：所有服务器必须具备root/sudo权限，避免因权限不足导致部署失败。

6.2 部署中注意事项

1. 路径统一：所有服务器的虚拟环境路径、模型路径、日志路径、启动脚本路径必须完全一致，否则会导致多机级联失败；

2. 环境变量配置：所有节点的环境变量（尤其是MASTER_ADDR、MASTER_PORT、WORLD_SIZE）必须统一，避免通信异常；

3. 启动顺序：必须先在所有节点配置好环境、同步好模型权重，再在主节点执行启动脚本，不可单独启动某一台节点；

4. 报错处理：部署过程中若出现“通信超时”，检查服务器间网络及SSH免密登录；若出现“算子报错”，检查CANN版本及依赖版本；若出现“显存溢出”，降低显存利用率或调整并行策略；

5. 前台调试：建议先以前台模式启动，确认无异常后再切换至后台常驻，便于排查启动过程中的问题。

6.3 部署后注意事项

1. 性能监控：接入Prometheus + Grafana监控所有节点的NPU显存、CPU、内存占用，以及网络延迟、吞吐量，设置告警阈值，及时发现异常；

2. 日志管理：定期清理日志目录（/data/logs/ds-v4-pro），避免占用过多存储空间，建议保留7天内的日志，便于故障排查；

3. 权限管控：限制模型目录、日志目录、启动脚本的访问权限，仅授权用户可读写，保障数据安全；

4. 版本固化：锁定核心依赖版本，避免后续升级导致兼容性问题，若需升级，需先在测试环境验证；

5. 冗余备份：部署后7天内，保留模型权重、环境配置的备份，若出现服务异常，可快速回滚；

6. 定期维护：每周检查一次服务器硬件状态、网络通信、服务运行情况，及时处理潜在故障。

6.4 常见故障排查

1. 多机通信失败：检查MASTER_ADDR、MASTER_PORT配置是否正确，服务器间SSH免密登录是否正常，网络是否通畅，防火墙是否拦截端口；

2. 启动时报“MoE operator not found”：检查ASCEND_ENABLE_MOE_OPTIMIZE环境变量是否设为1，vllm-ascend版本是否≥0.15.0；

3. 显存溢出（OOM error）：检查所有节点的vllm进程是否完全停止，降低npu-memory-utilization参数，缩短max-model-len，或调整并行策略；

4. 大EP架构启用失败：检查ASCEND_ENABLE_EXTENDED_PROCESSING环境变量是否设为1，EP并行级别是否与节点数一致；

5. 响应速度慢、吞吐量低：检查网络延迟是否过高，大EP配置是否优化，并行参数是否合理，可调整OMP_NUM_THREADS、max-num-batched-tokens参数；

6. 服务崩溃：查看日志排查具体报错，若为依赖冲突，重新安装指定版本依赖；若为硬件故障，检查NPU状态及服务器散热。

七、附录（补充说明）

附录1：常用命令汇总

bash
# 服务管理
ps -ef | grep vllm            # 查看vllm进程
kill -9 进程ID                # 停止vllm进程
nohup ... > log.log 2>&1 &   # 后台启动服务
tail -f /data/logs/ds-v4-pro/run.log # 查看服务日志

# 多机通信
ssh root@xxx.xxx.xxx.xxx      # 登录从节点
scp -r 源路径 root@xxx.xxx.xxx.xxx:目标路径 # 同步文件
ping xxx.xxx.xxx.xxx -c 10    # 测试网络延迟
iperf3 -c xxx.xxx.xxx.xxx -t 30 # 测试网络带宽

# 环境与硬件检查
npu-smi info                  # 查看NPU状态
cat /usr/local/Ascend/version.txt # 查看CANN版本
python3 --version             # 查看Python版本
df -h | grep /data            # 查看存储空间

# 模型管理
modelscope download --model 模型名 --local-dir 路径 # 下载模型
ls /data/models/DeepSeek-V4-PRO | grep -E "config.json|model.safetensors" # 验证模型完整性

附录2：回滚方案

若部署过程中出现无法解决的故障，需执行回滚操作，恢复至部署前状态：

bash
# 1. 所有节点停止vllm进程
ps -ef | grep vllm | grep -v grep | awk '{print $2}' | xargs kill -9
# 2. 退出虚拟环境
deactivate
# 3. 恢复环境变量（删除部署时添加的环境变量）
vim ~/.bashrc # 删除新增的ASCEND_*、MASTER_*、WORLD_SIZE等环境变量
source ~/.bashrc
# 4. （可选）删除模型权重、虚拟环境、日志目录
rm -rf /data/models/DeepSeek-V4-PRO
rm -rf /root/ds-v4-pro-env
rm -rf /data/logs/ds-v4-pro

附录3：免责声明

1. 本文档基于DeepSeek-V4-PRO模型、昇腾910B多机多卡（2台8卡）、CANN 8.0.5环境编写，若服务器数量、硬件配置、软件版本存在差异，需相应调整配置参数；

2. 部署过程中需严格按照文档步骤操作，若因操作不当导致服务器故障、数据丢失或业务中断，本文档作者不承担相关责任；

3. 模型权重版权归DeepSeek团队所有，部署与使用需遵守相关许可协议，严禁用于非法用途；

4. 若遇到文档未覆盖的故障，可参考昇腾官方文档、vLLM-Ascend官方文档，或联系技术支持。