910B服务器使用Gpustack通过vllm-omni部署qwen-image2511

因为vllm-omni 是 vLLM-Omni 通过 vLLM Ascend 插件 (vllm-ascend) 支持 NPU。所以没有根据官方文档 vllm-Omini，如果要容器化，只能运行在vllm-ascend昇腾环境中，所以我们需要在容器中安装成功 vLLM-Omni 并打包成可以一键在GPUstack启动中启动的docker镜像。打包方式：1.启动 ascend环境特别说明：这个目录是

满头黑发到中年

678人浏览 · 2026-02-09 10:39:54

满头黑发到中年 · 2026-02-09 10:39:54 发布

基础环境：

gpustack：v2.3
服务器：910B 显存:8*64

操作方式：

因为vllm-omni 是 vLLM-Omni 通过 vLLM Ascend 插件 (vllm-ascend) 支持 NPU。所以没有根据官方文档 vllm-Omini
，如果要容器化，只能运行在vllm-ascend昇腾环境中，所以我们需要在容器中安装成功 vLLM-Omni 并打包成可以一键在GPUstack启动中启动的docker镜像。

打包方式：

1.启动 ascend环境

export IMAGE=quay.io/gpustack/runner:cann8.3-910b-vllm0.12.0   # vllm昇腾镜像
docker run --rm \
    --name vllm-omni-npu \
        --privileged \
    --shm-size=1g \
     -e ASCEND_VISIBLE_DEVICES=0-7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /root/.cache:/root/.cache \
    -v /home/xahp/qwen-images/vllm-omni/:/vllm-workspace/vllm-omni \
     --ipc=host  \
    -p 8000:8000 \
    -it $IMAGE bash

特别说明：
这个目录是/home/xahp/qwen-images/vllm-omni我提前将/vllm-omni的代码下载到宿主机上然后映射到容器内部，具体的版本vllm昇腾和vllm-omin 对照关系请参考 https://github.com/vllm-project/vllm-omni/issues/886

在这里插入图片描述

启动成功以后，将进入容器内部安装vllm-omni：

 cd /vllm-workspace
 cd vllm-omni
 pip install -v .
 echo "export VLLM_WORKER_MULTIPROC_METHOD=spawn" >> ~/.bashrc
 echo "export VLLM_PLATFORM=ascend" >> ~/.bashrc
 source ~/.bashrc

安装成功以后，将此容器打包成镜像

docker commit vllm-omni-npu vllm-omni-ascend:v0.12.0rc1

接下来，就可以离线去启动模型了：

export IMAGE=vllm-omni-ascend:v0.12.0rc1
docker run --rm \
    --name vllm-omni-npu \
        --privileged \
    --shm-size=1g \
     -e ASCEND_VISIBLE_DEVICES=0-7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /root/.cache:/root/.cache \
    -v /home/xahp/gpustack-data/cache/model_scope/Qwen/Qwen-Image-2512:/data/models/Qwen-Image-2512:ro \
     --ipc=host  \
    -p 8000:8000 \
    -it $IMAGE bash

参数说明：
模型权重映射： -v /home/xahp/gpustack-data/cache/model_scope/Qwen/Qwen-Image-2512:/data/models/Qwen-Image-2512:ro \

gpustack集成：
在这里插入图片描述

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

AI硬件全景解析：CPU、GPU、NPU、TPU的差异化之路，一文看懂！

人工智能6S服务平台

ESP32小智AI机器人｜技术点与难点深度剖析

人工智能6S服务平台

鸿蒙权限管理：手动设置授权（五）

本文介绍了鸿蒙系统中manual_settings权限的申请流程，这是权限级别最高、管控最严格的一类权限，如拦截键盘输入事件等敏感能力。文章详细说明了manual_settings权限的特点、与user_grant权限的区别，并重点讲解了四步申请流程：先在AGC申请Profile文件并添加ACL权限，再在module.json5中声明权限，运行时检查权限状态，最后引导用户跳转系统设置开启权限。同时