小模型在昇腾NPU上的推理部署：【伪精度案例】

伪精度案例：当余弦相似度为 1 时，算子就一定没问题吗？在模型转换（ONNX → OM）过程中，精度比对是验证模型正确性的关键环节。本文记录了一个典型的“伪精度”问题案例，供参考。在精度比对中，通常使用随机输入（如）生成测试数据，这会引入大量小数点后的微小差异。但在实际业务场景中，模型的输入是固定的、符合真实分布的，并不会出现这些极端边界情况。

ღ温酒叙余生ღ᭄ꦿ࿐

152人浏览 · 2026-05-18 17:12:36

ღ温酒叙余生ღ᭄ꦿ࿐ · 2026-05-18 17:12:36 发布

作者：昇腾实战派

小模型在NPU上的推理部署：【知识地图】

简介

伪精度案例：当余弦相似度为 1 时，算子就一定没问题吗？

在模型转换（ONNX → OM）过程中，精度比对是验证模型正确性的关键环节。本文记录了一个典型的“伪精度”问题案例，供参考。

1. 精度比对流程

当 OM 模型出现精度问题时，通常使用 msprobe 工具对 ONNX 和 OM 的算子输入输出进行逐层比对。
比对指标采用余弦相似度，一般认为相似度低于 0.9995 时，OM 模型存在精度问题。

工具链接：
msprobe 离线模型比对文档

2. 问题现象

比对结果 result.csv 中，大量算子的相似度在 0.8 ~ 0.95 之间。
按照“从第一个输入正常、输出异常的算子开始，逐层定位”的原则，最终将问题锁定在 TopK 算子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从 CSV 截图来看：

TopK 算子的两个输入余弦相似度均为 1
两个输出中，第一个输出（值）相似度为 1，第二个输出（索引）相似度仅为 0.96

进一步分析发现，后续的 gatherND 算子是首个出现精度显著下降的节点，其输出相似度从输入的 0.96 骤降至 0.81。由于 gatherND 的输入直接来源于 TopK 的输出，因此根因仍指向 TopK。

初步判断：TopK 算子可能存在精度问题。

3. 根因分析

3.1 输入并非完全一致

虽然 CPU 与 NPU 的输入 Tensor 余弦相似度为 1，但逐元素对比发现，两者存在微小数值差异，并非二进制完全一致。

3.2 TopK 对微小误差极其敏感

TopK 属于严格排序类算子，输入中的极小数值差异，可能直接改变元素的排序关系，从而导致输出索引出现明显差异。

4. 实验验证

为确认问题根源，进行了交叉验证：

用 CPU 输入喂给 NPU 算子：两个输出与 CPU 结果完全一致，严格符合 TopK 数学语义
用 NPU 输入喂给 CPU 算子：两个输出与 CPU 结果完全一致，严格符合 TopK 数学语义

结论：在输入完全一致的情况下，NPU 算子行为与 CPU 一致，算子本身无精度问题。

5. 现象解释

余弦相似度为 1，仅说明向量方向高度一致，并不代表 Tensor 二进制完全相同。
输入的浮点微小误差，经过 TopK 这类敏感算子后，被放大并体现在输出索引上。
这是“输入误差 + 算子敏感性”共同导致的正常现象，而非 TopK 算子的实现缺陷。

6. 总结

在精度比对中，通常使用随机输入（如 torch.randn）生成测试数据，这会引入大量小数点后的微小差异。
但在实际业务场景中，模型的输入是固定的、符合真实分布的，并不会出现这些极端边界情况。

在这里插入图片描述

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

Verl Full Async架构昇腾实践

在大规模语言模型的强化学习（RL）训练中，高效利用计算资源是提升训练效率的核心挑战。传统RL框架普遍采用共卡共进程方案，即每张NPU在训练中仅执行单一任务，导致训练流程严格串行执行（Rollout→Train→Sync）。这种设计在实际开发中面临显著瓶颈：当处理长尾序列时，部分NPU的推理延迟会引发其他NPU的空闲等待，无法通过增加资源缓解，造成整体训练效率下降。为解决这一问题，我们设计了Full

人工智能6S服务平台

昇腾环境Qwen3-235B-W8A8部署

本文介绍了在openEuler 22.03 SP4系统上部署Qwen3-235B大模型的准备工作与环境配置。主要内容包括：1）硬件要求（NPU驱动、固件安装及500GB内存推荐）；2）软件准备（权重下载、量化工具获取及MindIE镜像加载）；3）详细的环境部署步骤，包括MindIE容器启动配置（挂载多设备与目录）和量化工具安装。文档提供了完整的操作指南和相关资源下载链接，适用于在华为Ascend平

人工智能6S服务平台

DeepSeek-V4开源上线魔乐社区，Day0解锁昇腾部署

万众期待的DeepSeek-V4终于来了！拥有。魔乐社区同步上线 DeepSeek开源权重 + 昇腾适配版，助你 Day0 开启“国产SOTA模型 × 国产算力” 双Buff加持的体验。同时，魔乐社区的DeepSeek专区已更新，将陆续上线DeepSeek-V4技术干货和更多国产算力适配模型，欢迎开发者关注体验！