龙虾系列--openclaw基于昇腾910B单卡完成GLM-4.7-flash模型的加载并推理成功

本文详细介绍了龙虾AI平台的安装配置与模型部署流程。主要内容包括：1）通过nvm安装Node.js环境，配置openclaw网关服务；2）安装昇腾skills技能包；3）下载GLM-4.7-Flash模型权重；4）搭建基础环境并指定软件版本；5）解决模型加载时的显存不足问题，尝试量化、CPU offload等优化方案。最终通过调整生成参数和权重分布，实现模型成功加载与推理。整个流程涉及环境配置、依

会魔法的bug

106人浏览 · 2026-03-26 17:11:35

会魔法的bug · 2026-03-26 17:11:35 发布

一、龙虾安装

安装node.js

curl -o https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh |bash

source ~/.bashrc

nvm install 22

校验node.js版本

node -v

npm -v

安装龙虾命令：

npm install -g openclaw@latest

openclaw --version

根据向导，配置openAI大模型的接口，命令如下：

openclaw onboard --install-daemon

打开网页http://10.23.45.123:18789 （IP为服务器网络地址）

网关令牌：通过配置文件.openclaw/openclaw.conf查看 auth.token 字段

接入权限设置：查看终端接入请求，命令如下

openclaw devices list

审核终端接入请求，命令如下

openclaw devices approve 32496f3faffe7b77919346eb356aa7 # device id

openclaw界面登录

二、技能安装

昇腾skills安装包地址：awesome-ascend-skills

下载skills安装包并解压到路径/root/.openclaw/ascend-skills，打开聊天，输入安装命令如下：

检查路径/root/.openclaw/ascend-skills，并安装skills技能

列举当前技能

三、下载模型

下载模型权重，命令如下：

下载模型权重ZhipuAI/GLM-4.7-Flash，保存到本地路径 /root/autodl-tmp/GLM-4.7-Flash

权重下载时间较长，会发生Agent执行超时现象，需要重新刷新页面，输入上面命令

四、基础环境

指定安装软件版本，可以有效减少token消耗和skills处理时间

安装cann 版本 8.5.0

安装cann-910b-ops 版本 8.5.0

安装nnal 版本 8.5.0

安装vllm 版本 0.17.0

安装vllm-ascend 版本 0.17.0rc1

安装transformers 版本 5.3.0

安装torch 版本2.9.0

安装torch_npu 版本 2.9.0

五、模型加载

使用vllm-ascend技能移植模型：

龙虾自动进行环境检测：

根据依赖告警发现版本冲突

校验模型下载地址

提供两种启动方式

选择2 运行离线推理测试，模型地址: /root/autodl-tmp/GLM-4.7-Flash

发现模型加载显存不足，优化启动参数

调用工具查看硬件显存，并修改启动脚本glm4_offline_inference.py中上下文长度，重新加载模型

加载显存失败，提供优化方式

提供模型量化和cpu offload方案，结论发现vllm-Ascend 对此模型支持部完整，尝试transformers直接推理

发现vllm不支持cpu offload，针对模型进行量化

安装量化工具msmodelslim

创建模型量化脚本

网络中断，重新加载问题，尝试transformers加载模型

部分权重offload到cpu，成功加载模型并推理，但是输出有问题，调整生成参数

最终输出结果

手动验证执行脚本：

模型加载权重分布，从权重45层开始，offload到cpu上执行

六、龙虾总结

总结内容如下：

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

鸿蒙游戏上线全流程（开发 + 打包 + 发布）

人工智能6S服务平台

【鸿蒙实战】手把手教你打造高性能实时新闻流：网络请求、状态管理与缓存优化全解析

网络请求阻塞主线程：导致界面卡顿。状态同步复杂：数据更新后 UI 未及时刷新。弱网体验差：无缓存机制，断网即白屏。列表滚动掉帧：图片加载与数据解析未优化。本文将遵循华为官方最佳实践，带你从零构建一个具备下拉刷新、上拉加载、本地缓存能力的实时新闻模块。定义清晰的数据接口（Interface）是 TypeScript 的优势所在，有助于代码提示和类型安全。文件路径id: string;// 时间戳权限