RAS-协议学习

芯片 RAS(可靠性)+ DFX(调试诊断)全网优质学习资源合集
按国际大厂官方文档、行业标准规范、国内鲲鹏 / 昇腾国产化资料、技术博客 & 社区、实操工具教程五大类整理,全部可直接打开访问,适配服务器芯片、AI 加速卡 RAS+DFX 逆向定位学习场景。
一、国际大厂官方 RAS 权威学习链接(最权威,推荐优先啃)

  1. Intel x86 RAS 体系(业界标杆,APEI/MCA/AER 源头)
    Intel 官方系统编程手册(含 MCA 机器校验、RAS、WHEA 全套规范)
    https://software.intel.com/en-us/articles/intel-sdm
    第 3 卷系统编程指南详细讲解 CPU 硬件错误上报、可纠正 / 不可纠正错误处理、CMCI 中断、内存 ECC/Chipkill 容错原理。
    Intel 服务器 RAS 技术白皮书 + Field Diag 工具官方文档
    https://www.intel.com/content/www/us/en/data-center/data-center-technology/reliability-availability-serviceability-ras.html
    包含整机 RAS 架构、故障隔离、内存热备、CPU 内核在线隔离,以及你之前研究的 Field Diag 批量故障诊断工具使用手册。
    Intel WHEA Windows 硬件错误架构(APEI Windows 侧实现)
    https://learn.microsoft.com/zh-cn/windows-hardware/drivers/whea/
  2. AMD EPYC 服务器 RAS 官方资料
    AMD 官方技术文档中心(EPYC 处理器 RAS、内存容错、PCIe AER)
    https://www.amd.com/en/developer/resources/technical-documents
    AMD EPYC RAS 设计白皮书
    https://www.amd.com/system/files/documents/epyc-9004-series-ras-technical-brief.pdf
  3. ARM 架构 RAS 标准(鲲鹏、飞腾通用 ARMv8/v9 RAS 扩展)
    ARM 官方架构手册(RAS Extension 错误上报、SDEI 中断规范)
    https://developer.arm.com/architectures/architecture-security-features/ras
    定义 ARM 服务器芯片 RAS 硬件检测、错误中断、CPER 错误日志标准,鲲鹏 RAS 完全基于该规范实现。
    ARM SBSA 服务器基础架构规范(RAS 强制要求章节)
    https://developer.arm.com/documentation/den0029/latest
  4. NVIDIA GPU/AI 集群 RAS+Field Diag 工具官方文档
    NVIDIA Data Center RAS 可靠性技术文档
    https://docs.nvidia.com/datacenter/tesla/ras/index.html
    NVIDIA Field Diag 官方用户手册(你深度研究的集群故障诊断工具)
    https://docs.nvidia.com/datacenter/diag/field-diag-user-guide/index.html
    二、国内鲲鹏 + 昇腾 国产化 RAS&DFX 官方学习资源(适配你的扁鹊定位平台、AscendDMI/Kunpeng-STL)
    鲲鹏服务器 RAS 可靠性开发指南(华为开发者官网)
    https://developer.huawei.com/enterprise/zh/doc/24659
    完整讲解鲲鹏 920 处理器 ECC、MCA、APEI、BERT/HEST 硬件错误黑匣子、内存故障隔离、CPU 内核离线、RAS 日志采集解析。
    Kunpeng-STL 故障注入工具官方教程(RAS 验证必备)
    https://developer.huawei.com/enterprise/zh/doc/24661
    昇腾 Ascend-DMI DFX 诊断工具全套手册
    https://support.huawei.com/enterprise/zh/doc/EDOCU-11347644
    寄存器读取、BIST 在线自测、黑匣子日志解析、故障特征定位、板级 DFX 诊断全流程实操文档。
    华为 iBMC 带外 RAS 监控 + 故障日志采集官方白皮书
    https://support.huawei.com/enterprise/zh/doc/EDOC115507511
    三、行业通用标准规范(RAS 底层协议必学:ACPI/APEI/PCIe AER/CPER)
    ACPI 6.5 官方规范(APEI 平台错误接口、CPER 通用平台错误日志格式)
    https://uefi.org/specs/ACPI/6.5/ACPI_6_5.html#18-platform-error-interfaces-apei
    RAS 最核心标准,固件、OS、芯片三方错误上报统一协议,BERT/HEST/ERST 表全部在该章节。
    PCI-SIG PCIe AER 高级错误上报规范(高速总线 RAS 基础)
    https://pcisig.com/specifications/pciexpress
    OCP 开源算力 RAS API 规范(谷歌、Meta、华为联合制定集群 RAS 标准)
    https://www.opencompute.org/documents/2025-ocp-ras-api-v0-9-final-pdf
    Linux 内核 RAS 子系统官方文档(x86/ARM64 APEI、CPER、MCE 驱动实现)
    https://www.kernel.org/doc/html/latest/admin-guide/ras.html
    四、优质技术博客 & 国内社区(实战踩坑、案例拆解,适合碎片化学习)
    国内深度技术博客(服务器 RAS/DFX 高频实战)
    CSDN「手把手玩转服务器芯片架构」专栏(RAS 从入门到集群实战)
    https://blog.csdn.net/mhd0815/article/details/149603371
    Linux RAS ARM64 架构深度技术分享(红帽官方 PPT,SDEI、CPER、固件优先错误处理)
    https://static.sched.com/hosted_files/linaroconnectsandiego/11/Reliability,%20Availability,%20and%20Serviceability%20(RAS)%20on%20ARM64%20status%20-%20SAN19-118_v1.pdf
    与非网硬件 RAS/DFX 深度技术专栏
    https://www.eefocus.com/column/2000000000000000001
    21IC 电子技术论坛(芯片调试、偶现故障、RAS 疑难问题交流)
    https://bbs.21ic.com/
    国外经典技术站点(行业深度分析、大厂故障复盘)
    Semiconductor Engineering(芯片可靠性、DFX 设计、硬件失效案例权威媒体)
    https://semiengineering.com/
    VLSI Concepts(芯片验证、DFT/DFX、可靠性设计入门干货)
    https://www.vlsi-expert.com/
    五、DFX 调试诊断专项学习资源(黑匣子、BIST、寄存器调试、日志解析)
  5. 通用芯片 DFX 设计官方教程
    Synopsys DFT/DFX 可测试可靠性设计白皮书
    https://www.synopsys.com/implementation-and-signoff/rtl-signoff/resources/whitepapers.html
    Xilinx (AMD) 硬件 DFX 调试(BIST、ILA 在线抓波形、故障诊断)
    https://adaptivesupport.amd.com/s/article/000036011?language=zh_CN
  6. 服务器 DFX 实操类优质博客
    服务器 CPU 黑匣子、在线 BIST、寄存器快照故障定位实战
    https://www.cnblogs.com/wenbinteng/p/18876874.html
    硬件静默错误(SDE)RAS 日志聚类复盘分析实战
    https://www.cnblogs.com/kaibindirver/p/15668799.html
    六、开源实战学习仓库(可跑 RAS 模拟、日志解析 Demo)
    Linux 内核 RAS 驱动开源仓库(MCE、APEI、AER 源码学习)
    https://github.com/torvalds/linux/tree/master/arch/x86/kernel/cpu/mcheck
    CPER 错误日志解析开源工具(对标 AscendDMI 日志解析能力)
    https://github.com/microsoft/LinuxTraceEvents/tree/master/tools/cper
    QEMU ARM64 RAS 仿真环境(可以本地模拟故障注入、验证 RAS 上报逻辑)
    https://www.qemu.org/docs/master/system/arm/sbsa.html
Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐