Kimi K2在华为昇腾 800I A2安装过程（国产信创），含保姆级命令

在华为昇腾 Atlas 800I A2 推理服务器上部署 Kimi K2 大模型，推荐使用社区维护的 vLLM-Ascend 插件（专为昇腾 NPU 优化），配合 MindIE 镜像或 Docker 容器化部署，以规避复杂的驱动/依赖冲突。# 驱动：Ascend-hdk-atlas800i-a2-npu-driver_8.5.RC1_linux-aarch64.run。# 固件：Ascend-

yumgpkpm

1655人浏览 · 2026-02-24 13:58:52

yumgpkpm · 2026-02-24 13:58:52 发布

Kimi K2在华为昇腾 800I A2安装过程（国产信创），含保姆级命令

下载地址：

https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is

查找“Hadoop 信创”，输入“CMP”恢复最新下载地址

博文末尾处有下载方式：

在华为昇腾 Atlas 800I A2 推理服务器上部署 Kimi K2 大模型，推荐使用社区维护的 vLLM-Ascend 插件（专为昇腾 NPU 优化），配合 MindIE 镜像或 Docker 容器化部署，以规避复杂的驱动/依赖冲突。

以下是保姆级、可直接复制执行的完整命令流程，适用于首次安装场景（即未装驱动/固件）：

✅ 前提条件

服务器：Atlas 800I A2

操作系统：openEuler 24.03 LTS（官方推荐）

用户权限：root

网络：能访问外网（或已下载好离线包）

第一步：安装 NPU 驱动与固件（仅首次需做）

⚠️ 若已安装过驱动，请跳过此步。否则必须按驱动 → 固件顺序安装。

Bash

# 1. 创建运行用户（必须！）

groupadd HwHiAiUser

useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

# 2. 下载驱动和固件（替换为实际版本号，示例为 CANN 8.5.RC1）

# 驱动：Ascend-hdk-atlas800i-a2-npu-driver_8.5.RC1_linux-aarch64.run

# 固件：Ascend-hdk-atlas800i-a2-npu-firmware_8.5.RC1.run

# （从 https://www.hiascend.com/software/cann 获取）

# 3. 赋予执行权限

chmod +x Ascend-hdk-atlas800i-a2-npu-driver_8.5.RC1_linux-aarch64.run

chmod +x Ascend-hdk-atlas800i-a2-npu-firmware_8.5.RC1.run

# 4. 安装驱动（指定运行用户）

./Ascend-hdk-atlas800i-a2-npu-driver_8.5.RC1_linux-aarch64.run \

--full --install-for-all \

--install-username=HwHiAiUser --install-usergroup=HwHiAiUser

# 5. 安装固件

./Ascend-hdk-atlas800i-a2-npu-firmware_8.5.RC1.run --full

# 6. 重启生效

Reboot

🔄 重启后验证：

bash

npu-smi info

# 应看到 NPU 卡信息（如 device ID、温度、功耗等）

第二步：拉取 vLLM-Ascend Docker 镜像（推荐方式）

使用容器避免环境污染，且官方提供完整依赖。

bash

# 1. 安装 Docker（若未安装）

yum install -y docker

systemctl start docker

systemctl enable docker

# 2. 设置设备变量（根据 npu-smi info 输出调整，通常为 davinci0~7）

export DEVICE=/dev/davinci0

# 3. 拉取并运行 vLLM-Ascend 容器（适配 Atlas A2 + openEuler）

docker run --rm \

--name kimi-k2-runner \

--shm-size=16g \

--device $DEVICE \

--device /dev/davinci_manager \

--device /dev/devmm_svm \

--device /dev/hisi_hdc \

-v /usr/local/dcmi:/usr/local/dcmi \

-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \

-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \

-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \

-v /etc/ascend_install.info:/etc/ascend_install.info \

-v /root/.cache:/root/.cache \

-v $(pwd)/models:/models \ # 挂载模型目录

-p 8000:8000 \

-it quay.io/ascend/vllm-ascend:latest-openeuler bash

💡 镜像说明：

quay.io/ascend/vllm-ascend:latest-openeuler 是社区维护的 openEuler 专用镜像
已预装：PyTorch 2.9 + torch-npu 2.9 + CANN 8.5 + vLLM-Ascend

第三步：下载 Kimi K2 模型（在容器内执行）

bash

# 进入容器后（上一步已进入 bash）

cd /models

# 安装 huggingface_hub

pip install huggingface_hub -i https://pypi.tuna.tsinghua.edu.cn/simple

# 下载 Kimi-K2-Instruct（FP16/BF16 原始权重，非 GGUF！）

python3 -c "

from huggingface_hub import snapshot_download

snapshot_download(

repo_id='moonshotai/Kimi-K2-Instruct',

local_dir='./Kimi-K2-Instruct',

token='你的HF Token（如有私有模型）' # 公开模型可省略

)

🔔 注意：不要下载 GGUF 格式！vLLM-Ascend 只支持 Hugging Face Transformers 格式（即原始 PyTorch 权重）。

第四步：启动 Kimi K2 服务（在容器内）

bash

# 启动 vLLM 服务（启用 NPU 加速）

python -m vllm.entrypoints.openai.api_server \

--model /models/Kimi-K2-Instruct \

--trust-remote-code \

--dtype bfloat16 \

--tensor-parallel-size 1 \ # A2 单卡，设为 1

--max-model-len 128000 \ # 支持 128K 上下文

--port 8000

✅ 成功标志：输出 Uvicorn running on http://0.0.0.0:8000

第五步：调用 API 测试（在宿主机或其他机器）

bash

curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "kimi-k2",

"messages": [

{"role": "system", "content": "你是一个强大的AI助手"},

{"role": "user", "content": "请用 Python 写一个快速排序"}

"temperature": 0.6

🔧 常见问题解决

问题	解决方案
npu-smi: command not found	驱动未装或 PATH 未包含 /usr/local/bin
No module named 'torch_npu'	必须使用 vLLM-Ascend 官方镜像，不可自行 pip install
模型加载慢/OOM	使用 --dtype bfloat16 或 --quantization fp8（需模型支持）
权限拒绝	确保 HwHiAiUser 用户存在，且驱动安装时指定了该用户

📦 替代方案：使用 MindIE 镜像（离线部署）

若网络受限，可使用华为官方 MindIE 镜像：

bash

# 拉取 MindIE 镜像（需提前从昇腾社区下载）

docker load -i mindie-atlas800i-a2-py311-openeuler24.03-lts.tar

# 运行（类似上述容器命令，挂载模型到 /home/models）

docker run -it --device ... mindie-atlas800i-a2 ... bash

# 在 MindIE 中使用 ms.infer() API 加载模型（非 OpenAI 格式）

但 vLLM-Ascend 更推荐，因其兼容 OpenAI API，生态更丰富。

✅ 总结命令流（一键回顾）

bash

# 宿主机（root）

groupadd HwHiAiUser && useradd -g HwHiAiUser -m HwHiAiUser

# 安装驱动固件 → reboot

npu-smi info # 验证

# 启动容器

docker run --device /dev/davinci0 ... -v $(pwd)/models:/models -p 8000:8000 -it quay.io/ascend/vllm-ascend:latest-openeuler bash

# 容器内

pip install huggingface_hub

huggingface-cli download moonshotai/Kimi-K2-Instruct --local-dir /models/Kimi-K2-Instruct

python -m vllm.entrypoints.openai.api_server --model /models/Kimi-K2-Instruct --trust-remote-code --dtype bfloat16 --port 8000

🌟 至此，Kimi K2 已在昇腾 800I A2 上成功部署，可通过标准 OpenAI API 调用，享受 国产算力 + 国产大模型 的全栈自主可控体验。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

【flutter for open harmony】第三方库Flutter 鸿蒙版签到打卡实战指南（适配 1.0.0）✨

签到打卡是培养习惯的有效方式，广泛应用于健身、学习等场景。本文将介绍如何在Flutter鸿蒙应用中实现签到打卡功能。签到打卡使用Set存储签到日期，通过日期计算统计连续签到天数。本文详细介绍了Flutter鸿蒙签到打卡功能的实现过程，包括签到记录、连续统计和日历展示。通过本实例，开发者可以掌握Flutter日期处理、集合操作、日历布局等关键技术点。