MindCluster故障诊断工具全新发布，实现集群智能化故障分析

X_X _M

192人浏览 · 2026-05-22 09:57:39

X_X _M · 2026-05-22 09:57:39 发布

MindCluster故障诊断工具全新发布，实现集群智能化故障分析

AI大模型时代的运维挑战
MindCluster故障诊断工具 Ascend FaultDiag Toolkit
集群巡检实操指南
总结

AI大模型时代的运维挑战

昇腾AI集群凭借强劲算力，已在大模型训练与推理场景中实现广泛应用。其中，MindCluster作为核心支撑平台，全面使能集群全流程运行，涵盖作业调度、运维监控、故障恢复等关键功能，为集群高效运转筑牢基础。

然而，随着集群规模持续扩大、设备类型日趋多样，加之日志数据分散等问题凸显，日常巡检的全面性与故障分析的精准性面临巨大挑战。据统计，AI训练任务中约30%的中断源于硬件或网络故障，单次故障平均造成4–6小时训练停滞，带来显著的算力损耗与时间成本。

为破解这一痛点，昇腾正式推出MindCluster Ascend FaultDiag Toolkit故障诊断工具，以智能化诊断能力革新运维模式。本文将基于该工具，为您提供全面指导，助力快速完成昇腾 AI集群的常态化巡检与突发故障分析，实现运维效率升级。

MindCluster故障诊断工具 Ascend FaultDiag Toolkit

MindCluster Ascend FaultDiag Toolkit是一款专为昇腾AI集群设计的交互式巡检与故障分析工具，支持在线采集与离线分析两种模式，助力完成集群异常的快速识别与分析。包括多源数据采集、智能日志解析、自动化巡检报告生成等核心功能。

MindCluster Ascend FaultDiag Toolkit核心功能包括：

多源数据采集框架，支持Host主机、BMC带外管理、交换机三类设备的信息采集，兼容SSH在线采集与离线日志导入两种方式。
自动化巡检分析，基于规则引擎对采集的数据进行巡检分析，自动识别异常现象，并给出处理建议。
交互式命令行界面，提供友好的CLI交互体验，支持向导式操作，降低使用门槛。

Ascend FaultDiag Toolkit巡检流程示意图如下：
在这里插入图片描述
MindCluster Ascend FaultDiag Toolkit能在、以下三个关键场景发挥工具化能力，一键闭环，攻克运维难题：

场景一：大模型训练中断应急排查
训练任务突发中断时，传统运维需逐节点登录、逐日志筛查，耗时数小时且易遗漏关键信息。使用 MindCluster Ascend FaultDiag Toolkit，仅需执行 auto_collect_diag 命令，即可快速聚合分散日志与设备数据，3 分钟内精准识别故障，大幅缩短故障恢复时间，保障训练任务连续性。
场景二：跨网络平面集群统一诊断
当跨多个网络平面部署集群时，传统工具难以突破组网限制实现全域管理。该工具支持在不同网络平面分别采集数据，通过跨平面汇总与统一诊断，彻底解决复杂组网下的数据割裂问题，实现集群全域运维可视化。
场景三：集群定期健康巡检
从 “事后救火” 转向 “事前预防”，本工具提供 auto_inspection 常态化巡检命令，可对集群硬件状态、网络链路、软件配置等进行全面健康体检，提前识别潜在风险点，将故障扼杀在萌芽阶段，降低运维成本。

集群巡检实操指南

案例背景

在大规模集群中，光模块故障可能会导致集群训练中断——光链路故障可能是部件、CDR、光模块、光纤等各部位问题，根因难定位，且集群节点分散，人工收集日志繁琐、分析低效，运维成本高。
在这里插入图片描述
本案例将排查昇腾集群L1交换机与L2交换机间、NPU与RoCE交换机间光链路故障场景，演示如何快速上手使用MindCluster Ascend FaultDiag Toolkit工具，一站式解决故障排查痛点。

工具安装

# 安装工具包（Linux）
pip install ascend-faultdiag-toolkit

启动工具

# 启动交互式命令行
ascend-fd-tk

启动后回显如下：
在这里插入图片描述

配置数据源

该工具提供在线信息采集和离线信息分析能力，实现自动化、多场景的诊断能力。支持Windows和Linux环境。
在这里插入图片描述

在线采集模式（需配置SSH连接）
用户输入待访问设备的连接信息（账号、密码/密钥/免密），工具访问设备采集信息。

# 设置连接配置文件
 >>> set_conn_config /path/to/conn.ini

conn.ini配置文件内容结构样例：

# 设置连接配置文件
 >>> set_conn_config /path/to/conn.ini
conn.ini配置文件内容结构样例：
[host]
 # port指定端口,不写默认为22, username指定用户名, password指定密码, private_key指定私钥文件
 xxx.xxx.1.10 port="22" username="user_name" private_key="~/.ssh/your_private_key"
 xxx.xxx.1.11 port="22" username="user_name" password="your_password"
 [bmc]
 xxx.xxx.1.12 username="user_name" password="your_password"
 [switch]
 # 支持ip段方式填写(需保证账号密码相同)
 xxx.xxx.1.20-xxx.xxx.1.30 step=2 username="user_name" password="your_password"
 [config]
 # 支持设置全局的私钥文件
 private_key="~/.ssh/your_private_key"

离线分析模式（需设置日志目录）
用户将已采集的日志放入指定目录，来分析关键信息。

# 设置Host服务器日志目录
 >>> set_host_dump_log /path/to/host_logs
 # 设置BMC日志目录
 >>> set_bmc_dump_log /path/to/bmc_logs
 # 设置交换机日志目录
 >>> set_switch_dump_log /path/to/switch_logs

执行巡检

一键式巡检（推荐）：

# 自动完成采集+巡检
>>> auto_collect_diag
分步巡检 （适用于分批采集场景）：
# 第一步：采集信息（可多次执行，汇总多次采集结果）
>>> auto_collect
收集完成, 若完成全部收集请使用 " auto_diag " 进行巡检
# 第二步：执行巡检
>>> auto_diag
巡检完成
客户定制化巡检 ：
# 执行特定客户类型的巡检
>>> auto_inspection <客户类型>

查看巡检报告

巡检完成后，报告自动生成至~/.ascend-faultdiag-toolkit/report/目录：

# 查看报告目录
ls ~/.ascend-faultdiag-toolkit/report/
# 输出示例
diag_report_20260303_201835.csv  # 巡检分析报告
inspection_errors.csv  # 客户定制化巡检报告

巡检报告内容示例：

诊断报告
主机NPU<->交换机端口光模块信息
交换机间端口连接光模块信息

结合本案例覆盖的L1-L2交换机间、NPU-RoCE交换机间光链路故障场景，用户仅需配置采集设备信息，故障诊断工具即可实现大规模集群日志的批量自动收集——相较于人工手动采集，大幅缩短采集耗时；同时工具会自动解析“本端 XPU<->XPU Chip<->XPU marco<-> 光模块 <-> 对端设备…”的完整端口映射关系，无需定位人员手动梳理，显著降低分析工作量，提升故障定位效率。