为什么想做 AI 必须了解 HBM？一文讲清高带宽内存的概念、原理与未来

近两年，AI发展迅速，大模型参数激增，算力不断提升，但内存带宽成为关键瓶颈。HBM（高带宽内存）通过3D堆叠DRAM、TSV互联和硅中介层封装，大幅提升数据吞吐率，降低延迟和功耗，成为AI芯片和超级计算机的核心内存技术。了解HBM，有助于掌握GPU架构、算力基础设施及未来AI硬件趋势。

诸神缄默不语

84人浏览 · 2026-04-01 21:20:38

诸神缄默不语 · 2026-04-01 21:20:38 发布

诸神缄默不语-个人技术博文与视频目录

近两年，人工智能的发展速度远远超过很多人的预期。大模型参数从几十亿增长到上万亿，AI 芯片算力不断提升。但在算力之外，另一个关键组件也逐渐走到台前：HBM（High Bandwidth Memory，高带宽内存）。

如果你想真正理解 AI 硬件、算力基础设施、GPU 架构，那么 HBM 是一个绕不开的技术概念。

本文将系统介绍：

为什么学习 AI 的人需要了解 HBM
HBM 的基本概念
HBM 的技术原理
HBM 的价值与产业意义
HBM 的未来发展方向

一、为什么想了解 AI 的人必须了解 HBM

在 AI 计算中，人们通常首先想到 算力（Compute）。例如 GPU 的 CUDA Core、Tensor Core、算力 FLOPS 等。

但在实际系统中，AI 的瓶颈往往不是算力，而是 内存带宽。

原因很简单：

AI模型在训练或推理时，需要频繁访问参数和中间数据。如果 GPU 算得再快，但数据送不进来，就会出现 “算力饥饿”。

这就是计算机体系结构中经典的 Memory Wall（内存墙）问题。

可以用一个简单的比喻理解：

GPU：像高速工厂
内存：像原材料仓库
带宽：运输公路

如果运输道路太窄，工厂再先进也无法满负荷运转。

HBM 正是为了解决这个问题而诞生的技术。

它通过改变内存结构，使芯片可以获得 极高的数据吞吐能力，从而支撑 AI、HPC（高性能计算）等数据密集型计算任务。¹²

今天几乎所有顶级 AI 芯片，例如数据中心 GPU、AI 加速器，都依赖 HBM 提供高速内存带宽。

换句话说：

AI 算力革命的背后，本质上也是一场内存革命。

二、HBM是什么

HBM（High Bandwidth Memory） 是一种高性能内存接口技术，用于实现 3D 堆叠 DRAM 的高速数据传输。³

与传统内存相比，HBM 的核心特点是：

多层 DRAM 垂直堆叠 + 与处理器封装在一起。

传统内存结构：

CPU/GPU —— 主板 —— 内存条

HBM结构：

Silicon Interposer（封装载体）
    ┌-------------------------------┐
    │   Processor Die               │
    │           │                   │
    │    │───────┼──────┐           │
    │    │       │      │ HBM Stack │
    │ GPU/CPU   │      │           │
    │            └───────────────┘ │
    └-------------------------------┘

（die是一个完成电路功能的最小单元）

HBM 通过 3D 堆叠技术 将多层 DRAM 叠加在一起，并通过硅通孔（TSV）连接。¹

这种设计带来了几个关键优势：

极高带宽
更低延迟
更低功耗
更小封装尺寸

目前 HBM 已经成为 AI 芯片和超级计算机的重要内存形式。

三、补充：什么是 DRAM（动态随机存取存储器）

在讨论 HBM 之前，有必要先理解 主流内存技术的基础——DRAM（Dynamic Random Access Memory）。这是大多数计算系统的主存（main memory）所使用的内存类型，也是 HBM 的底层基础技术之一。

1. DRAM 的基本定义

DRAM 是一种 动态随机存取存储器，属于半导体内存的一种。它不同于磁盘或闪存这样的长期存储介质，属于 易失性存储：断电后数据会丢失。DRAM 允许系统随机访问任意位置的数据，其设计目的是提供高速、低成本的临时存储空间供处理器使用。¹

DRAM 广泛用于个人电脑、服务器、嵌入式设备甚至 GPU 的显存当中，它是主机内存（RAM）的主要实现形式。⁴

2. 为什么叫“动态”

“Dynamic”（动态）这个词来自它的数据存储机制。DRAM 使用 每个存储单元由一个电容和一个晶体管组成 的结构来保存一个二进制位的信息。电容内的电荷代表 0 或 1。然而电容所存的电荷会随着时间逐渐泄漏，因此必须定期刷新才能保证数据不丢失——这一点与不需要刷新数据的 SRAM（静态随机存取存储器） 不同。DRAM 就是因为需要不断重新充电来维持电荷，因此称为“动态”。¹

3. DRAM 的特点

从体系结构和性能角度看，DRAM 有以下核心特征：

高密度与大容量：每个存储单元只需要一个晶体管和一个电容，相对 SRAM 更简单，成本更低，因此可以实现更大的内存容量。¹
需要刷新：由于电荷泄漏，需要内存控制器周期性地对所有单元充电刷新，增加了设计复杂性。¹
易失性：断电后内容丢失。¹
相对较高延迟：比高速缓存（通常使用 SRAM）速度慢，但价格更低、容量更大。¹

4. DRAM 在计算系统中的角色

在传统架构中，DRAM 处于 处理器 L1/L2/L3 缓存（通常使用 SRAM） 和 磁盘/SSD 这样的二级存储介质 之间。它作为主内存，被 CPU 或 GPU 直接访问，存储当前正在执行的数据和指令。DRAM 的容量和带宽直接影响到整个系统的性能，例如：

在 PC 中，更多内存意味着可以同时运行更多程序而不换页。¹
在服务器中，DRAM 决定了单机可以处理多少并发请求和数据缓存能力。¹
在 GPU 中，DRAM 则作为 图形内存（VRAM） 存放渲染数据或 AI 模型参数。⁵

5. DRAM 的类型演进

DRAM 也有不同的分类和演进路径。常见的包括：

SDRAM（Synchronous DRAM）：与系统时钟同步，可以更高效地与 CPU 交互。¹
DDR（Double Data Rate）系列：通过在时钟上升沿和下降沿都传输数据，实现更高带宽，例如 DDR3、DDR4、DDR5。¹
ECC DRAM、RDIMM 等则用于服务器和关键任务场景提供更强的数据完整性。¹

这些都是传统 DRAM 在性能、容量和可靠性方面逐代提升的方向。

6. DRAM 与 HBM 的关系

HBM 本质上也是一种 DRAM，但在物理封装、互联方式和带宽优化上做了大量设计。HBM 与传统的 DDR/GDDR DRAM 芯片相比，通过 3D 堆叠与芯片封装近距离连接 来显著提高数据传输速度和效率，这也是它之所以成为高性能 AI 计算内存的原因。⁶

四、HBM 的技术原理

HBM 的性能优势来自三个关键技术。

1 3D 堆叠（3D Stacking）

传统内存是 平铺结构。

HBM 采用 垂直堆叠 DRAM die：

DRAM Die
DRAM Die
DRAM Die
DRAM Die
Base Logic

多个 DRAM 芯片叠在一起，从而在很小面积内实现更大的带宽和容量。

2 TSV（Through-Silicon Via）

TSV 是 HBM 的核心连接技术。

它是在硅片内部打通微型导电通道，使不同层的芯片能够直接通信。 ¹

结构示意：

Layer 4  │
Layer 3  │ TSV 垂直连接
Layer 2  │
Layer 1  │
Base Die │

这种连接方式大幅增加并行数据通道。

3 2.5D封装（硅中介层）

HBM 通常通过 硅中介层（silicon interposer） 与 GPU 或 CPU 相连。³

结构示意：

GPU Die
   │
Silicon Interposer
   │
HBM Stack

这种封装方式使得：

数据传输路径更短
信号延迟更低
带宽更高

五、HBM 的性能优势

HBM 的设计带来了明显性能优势。

1 极高带宽

HBM 的总线宽度非常大。

例如：

HBM1：约 128 GB/s
HBM2：约 307 GB/s
HBM3：约 819 GB/s
HBM3E：超过 1 TB/s

这些数据远高于传统 DDR 或 GDDR 内存。³

2 更低功耗

HBM 的数据路径更短，因此电压更低，能耗更小。 ¹

在大型 AI 数据中心中，这一点极其重要。

3 更高集成度

HBM 将内存与计算芯片放在同一封装内，使系统结构更紧凑。

这也是 AI 加速卡设计的重要趋势。

六、HBM 的产业价值

HBM 不只是一个技术概念，它已经成为 AI 产业链的关键环节。

HBM 的主要厂商包括：

SK Hynix
Samsung
Micron

随着 AI 的爆发式增长，HBM 市场规模预计将快速扩大。

行业预测认为：

HBM 市场未来几年可能保持约 30% 的年增长率，并在 2030 年达到数百亿美元规模。 ⁵

HBM 的价值体现在三个方面：

AI 算力的核心基础设施
GPU 性能的关键瓶颈
半导体产业的新竞争焦点

因此，HBM 也被称为 “AI时代的黄金内存”。

七、HBM 的未来发展方向

HBM 技术仍在快速演进。

目前的发展路线主要包括以下几个方向。

1 更高带宽

HBM 标准已经发展到 HBM4。

HBM4 单堆栈带宽可达到 约 2 TB/s。³

未来 AI 模型规模继续增长，对带宽需求也会持续提升。

2 更高容量

HBM 的容量正在持续增加。

例如 HBM4：

单堆栈容量最高可达 64GB。³

未来 AI 训练需要更大的模型权重缓存，这一点尤为重要。

3 PIM（Processing in Memory）

未来可能出现 HBM-PIM 架构。

这种技术将部分计算能力放入内存中，从而减少数据搬运。³

如果成功，可能改变 AI 芯片架构。

4 新型 AI 内存架构

研究人员还在探索新的 AI 内存形态，例如：

高带宽闪存（HBF）
新型 AI 专用内存架构

这些技术可能与 HBM 形成分层内存体系。

八、总结

HBM 是 AI 时代非常关键的硬件技术之一。

可以用一句话总结：

AI 的发展不仅依赖算力，也依赖带宽。

HBM 通过 3D堆叠、TSV连接和先进封装技术，大幅提升了内存带宽，使 GPU 和 AI 加速器能够充分发挥计算能力。

未来随着 AI 模型规模持续增长：

HBM 带宽将继续提升
内存与计算将进一步融合
AI 硬件架构可能发生新的变革

如果你想真正理解 AI 基础设施，理解 GPU、算力集群、数据中心，那么 HBM 是一个非常值得深入研究的技术方向。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

HarmonyOS 5.0车机应用开发实战：基于方舟引擎的智能座舱多模态交互系统

人工智能6S服务平台

Flutter 三方库在鸿蒙应用开发中的基础项目实践

在lib/bloc目录新建@override// 加载本地待办列表事件// 添加待办事项事件@override// 切换待办完成状态事件@override// 删除待办事项事件@override在lib/bloc目录新建@override// 初始状态// 加载中状态// 加载完成状态（携带待办列表）@override// 错误状态@overrideFlutter三方库鸿蒙适配。

人工智能6S服务平台

Flutter集成鸿蒙适配三方库：基础级鸿蒙应用开发实践案例

本基础实践案例完整实现了“Flutter搭建鸿蒙应用+集成鸿蒙适配版三方库”的核心流程，从环境搭建到应用运行，全程贴合新手需求，无需复杂底层知识。通过本案例，可掌握以下核心要点：Flutter、鸿蒙SDK 20、DevEco Studio 6.0的基础环境搭建方法；Flutter鸿蒙项目的创建规范（区别于普通Flutter项目）；鸿蒙适配版三方库的配置与集成技巧；Flutter代码与鸿蒙应用的结合