CANN 组织链接: https://atomgit.com/cann
oam-tools仓库链接:https://atomgit.com/cann/oam-tools

目录

一、工具简介

二、环境准备与安装

系统要求

安装步骤

三、核心功能详解

1. 一键式故障信息收集

2. 软硬件信息全景展示

3. AI Core错误智能分析

四、高级使用技巧

1. 批量操作多设备

2. 定时监控与告警

3. 自定义收集策略

五、故障排查实战案例

案例1:AI Core频繁报错

案例2:设备无法识别

六、最佳实践建议

七、资源与支持

结语


一、工具简介

oam-tools是华为昇腾CANN平台为开发者提供的一套故障定位工具集,专门用于昇腾AI处理器的运维管理和故障诊断。该工具集集成了故障信息收集、软硬件状态监控、AI Core错误分析等核心功能,能够显著提升问题定位效率,缩短故障排查时间。

二、环境准备与安装

系统要求

  • 操作系统:CentOS 7.6/Ubuntu 18.04或更高版本

  • 硬件平台:搭载昇腾310/910处理器的服务器或设备

  • CANN版本:5.0.RC2及以上

安装步骤

bash

# 进入工具包目录
cd /usr/local/Ascend/tools

# 查看oam-tools是否已安装
ls | grep oam

# 若未安装,可从昇腾社区下载安装包
sudo dpkg -i oam-tools_1.0.0_linux-x86_64.deb

三、核心功能详解

1. 一键式故障信息收集

使用场景:当昇腾设备出现异常时,快速收集所有相关日志和系统信息。

关键命令

bash

# 收集完整故障信息包
sudo oam_collector --full

# 仅收集AI Core相关日志
sudo oam_collector --aicore

# 指定输出目录
sudo oam_collector --output /tmp/ascend_debug

输出内容

  • 系统日志(/var/log/messages, dmesg)

  • 昇腾驱动日志

  • 设备运行状态快照

  • 进程信息与资源占用

  • 网络配置信息

2. 软硬件信息全景展示

设备信息查询

bash

# 查看所有昇腾设备概要信息
oam_check --device

# 输出示例:
# Device ID: 0
# Chip Type: Ascend 910
# Health Status: Normal
# Temperature: 65°C
# Power Usage: 85W

详细硬件信息

bash

# 获取详细硬件参数
oam_check --detail

# 包含信息:
# - 设备序列号、固件版本
# - AI Core/CPU数量
# - 内存容量与使用率
# - PCIe链路状态
# - 电源供应情况

健康状态检查

bash

# 运行全面健康诊断
sudo oam_health_check

# 检查特定组件
sudo oam_health_check --memory
sudo oam_health_check --pcie

3. AI Core错误智能分析

错误监控

bash

# 实时监控AI Core错误
oam_monitor --aic-error

# 监控特定设备
oam_monitor --device 0 --aic-error

错误日志分析

bash

# 解析AI Core错误日志
oam_analyzer --error-log /var/log/ascend/error/device0/

# 常见错误类型分析:
# - ECC可纠正/不可纠正错误
# - 指令执行异常
# - 内存访问违规
# - 总线超时错误

自动诊断建议

bash

# 获取错误修复建议
oam_advisor --error-code 0x80010001

# 输出示例:
# 错误码:0x80010001
# 描述:AI Core ECC可纠正错误超阈值
# 建议操作:
# 1. 检查设备散热系统
# 2. 降低工作频率测试
# 3. 联系技术支持提供完整日志

四、高级使用技巧

1. 批量操作多设备

bash

# 检查所有设备状态
for dev_id in {0..3}; do
    oam_check --device $dev_id
done

# 批量收集日志
oam_collector --all-devices

2. 定时监控与告警

bash

# 创建定时监控任务
crontab -e
# 添加以下内容,每小时检查一次
0 * * * * /usr/bin/oam_health_check --quiet --threshold 85

3. 自定义收集策略

bash

# 创建自定义配置文件
vi /etc/oam/custom_profile.json

# 配置文件示例:
{
    "collect_logs": ["kernel", "driver", "application"],
    "memory_dump": false,
    "performance_data": true,
    "max_file_size": "2GB"
}

# 使用自定义配置
sudo oam_collector --config /etc/oam/custom_profile.json

五、故障排查实战案例

案例1:AI Core频繁报错

bash

# 步骤1:收集错误信息
sudo oam_collector --aicore --output ./debug_case1

# 步骤2:分析错误模式
oam_analyzer --pattern ./debug_case1/*.log

# 步骤3:检查硬件状态
oam_check --device 0 --temperature
oam_check --device 0 --power

# 步骤4:根据建议采取措施
# 若提示温度过高,检查散热系统
# 若提示电源不稳,检查供电线路

案例2:设备无法识别

bash

# 检查设备枚举状态
lspci | grep Ascend

# 使用oam-tools深度检测
sudo oam_diag --pcie-enum

# 收集系统日志
sudo oam_collector --kernel --driver

六、最佳实践建议

  1. 定期维护

    • 每周运行一次健康检查

    • 每月收集一次基线信息

  2. 日志管理

    • 设置日志轮转,避免磁盘占满

    • 重要操作前手动备份日志

  3. 性能监控

    • 建立设备健康基线

    • 监控关键指标趋势变化

  4. 协作支持

    • 使用标准格式收集问题信息

    • 提供完整的oam-collector输出包

七、资源与支持

  1. 官方文档

    • 在昇腾社区搜索“故障处理简介”(选择社区版)

    • 查阅《oam-tools命令参考》

  2. 更新获取

    • 定期访问昇腾社区获取工具更新

    • 订阅版本发布通知

  3. 技术支持

    • 社区论坛提问

    • 通过官方渠道提交问题报告

结语

oam-tools作为昇腾CANN平台的重要配套工具,为开发者提供了从信息收集到智能分析的全链路故障定位能力。通过熟练掌握本工具的使用,开发者能够快速定位和解决大多数常见问题,确保AI应用稳定高效运行。建议结合实际工作场景多加练习,并持续关注昇腾社区的工具更新和最佳实践分享。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐