诸神缄默不语-个人技术博文与视频目录

近两年,人工智能的发展速度远远超过很多人的预期。大模型参数从几十亿增长到上万亿,AI 芯片算力不断提升。但在算力之外,另一个关键组件也逐渐走到台前:HBM(High Bandwidth Memory,高带宽内存)

如果你想真正理解 AI 硬件、算力基础设施、GPU 架构,那么 HBM 是一个绕不开的技术概念

本文将系统介绍:

  • 为什么学习 AI 的人需要了解 HBM
  • HBM 的基本概念
  • HBM 的技术原理
  • HBM 的价值与产业意义
  • HBM 的未来发展方向

一、为什么想了解 AI 的人必须了解 HBM

在 AI 计算中,人们通常首先想到 算力(Compute)。例如 GPU 的 CUDA Core、Tensor Core、算力 FLOPS 等。

但在实际系统中,AI 的瓶颈往往不是算力,而是 内存带宽

原因很简单:

AI模型在训练或推理时,需要频繁访问参数和中间数据。如果 GPU 算得再快,但数据送不进来,就会出现 “算力饥饿”

这就是计算机体系结构中经典的 Memory Wall(内存墙)问题

可以用一个简单的比喻理解:

  • GPU:像高速工厂
  • 内存:像原材料仓库
  • 带宽:运输公路

如果运输道路太窄,工厂再先进也无法满负荷运转。

HBM 正是为了解决这个问题而诞生的技术。

它通过改变内存结构,使芯片可以获得 极高的数据吞吐能力,从而支撑 AI、HPC(高性能计算)等数据密集型计算任务。12

今天几乎所有顶级 AI 芯片,例如数据中心 GPU、AI 加速器,都依赖 HBM 提供高速内存带宽。

换句话说:

AI 算力革命的背后,本质上也是一场内存革命。

二、HBM是什么

HBM(High Bandwidth Memory) 是一种高性能内存接口技术,用于实现 3D 堆叠 DRAM 的高速数据传输。3

与传统内存相比,HBM 的核心特点是:

多层 DRAM 垂直堆叠 + 与处理器封装在一起。

传统内存结构:

CPU/GPU —— 主板 —— 内存条

HBM结构:

Silicon Interposer(封装载体)
    ┌-------------------------------┐
    │   Processor Die               │
    │           │                   │
    │    │───────┼──────┐           │
    │    │       │      │ HBM Stack │
    │ GPU/CPU   │      │           │
    │            └───────────────┘ │
    └-------------------------------┘

(die是一个完成电路功能的最小单元)

HBM 通过 3D 堆叠技术 将多层 DRAM 叠加在一起,并通过硅通孔(TSV)连接。1

这种设计带来了几个关键优势:

  1. 极高带宽
  2. 更低延迟
  3. 更低功耗
  4. 更小封装尺寸

目前 HBM 已经成为 AI 芯片和超级计算机的重要内存形式。

三、补充:什么是 DRAM(动态随机存取存储器)

在讨论 HBM 之前,有必要先理解 主流内存技术的基础——DRAM(Dynamic Random Access Memory)。这是大多数计算系统的主存(main memory)所使用的内存类型,也是 HBM 的底层基础技术之一。

1. DRAM 的基本定义

DRAM 是一种 动态随机存取存储器,属于半导体内存的一种。它不同于磁盘或闪存这样的长期存储介质,属于 易失性存储:断电后数据会丢失。DRAM 允许系统随机访问任意位置的数据,其设计目的是提供高速、低成本的临时存储空间供处理器使用。1

DRAM 广泛用于个人电脑、服务器、嵌入式设备甚至 GPU 的显存当中,它是主机内存(RAM)的主要实现形式。4

2. 为什么叫“动态”

“Dynamic”(动态)这个词来自它的数据存储机制。DRAM 使用 每个存储单元由一个电容和一个晶体管组成 的结构来保存一个二进制位的信息。电容内的电荷代表 0 或 1。然而电容所存的电荷会随着时间逐渐泄漏,因此必须定期刷新才能保证数据不丢失——这一点与不需要刷新数据的 SRAM(静态随机存取存储器) 不同。DRAM 就是因为需要不断重新充电来维持电荷,因此称为“动态”。1

3. DRAM 的特点

从体系结构和性能角度看,DRAM 有以下核心特征:

  • 高密度与大容量:每个存储单元只需要一个晶体管和一个电容,相对 SRAM 更简单,成本更低,因此可以实现更大的内存容量。1
  • 需要刷新:由于电荷泄漏,需要内存控制器周期性地对所有单元充电刷新,增加了设计复杂性。1
  • 易失性:断电后内容丢失。1
  • 相对较高延迟:比高速缓存(通常使用 SRAM)速度慢,但价格更低、容量更大。1

4. DRAM 在计算系统中的角色

在传统架构中,DRAM 处于 处理器 L1/L2/L3 缓存(通常使用 SRAM)磁盘/SSD 这样的二级存储介质 之间。它作为主内存,被 CPU 或 GPU 直接访问,存储当前正在执行的数据和指令。DRAM 的容量和带宽直接影响到整个系统的性能,例如:

  • 在 PC 中,更多内存意味着可以同时运行更多程序而不换页。1
  • 在服务器中,DRAM 决定了单机可以处理多少并发请求和数据缓存能力。1
  • 在 GPU 中,DRAM 则作为 图形内存(VRAM) 存放渲染数据或 AI 模型参数。5

5. DRAM 的类型演进

DRAM 也有不同的分类和演进路径。常见的包括:

  • SDRAM(Synchronous DRAM):与系统时钟同步,可以更高效地与 CPU 交互。1
  • DDR(Double Data Rate)系列:通过在时钟上升沿和下降沿都传输数据,实现更高带宽,例如 DDR3、DDR4、DDR5。1
  • ECC DRAM、RDIMM 等则用于服务器和关键任务场景提供更强的数据完整性。1

这些都是传统 DRAM 在性能、容量和可靠性方面逐代提升的方向。

6. DRAM 与 HBM 的关系

HBM 本质上也是一种 DRAM,但在物理封装、互联方式和带宽优化上做了大量设计。HBM 与传统的 DDR/GDDR DRAM 芯片相比,通过 3D 堆叠与芯片封装近距离连接 来显著提高数据传输速度和效率,这也是它之所以成为高性能 AI 计算内存的原因。6

四、HBM 的技术原理

HBM 的性能优势来自三个关键技术。

1 3D 堆叠(3D Stacking)

传统内存是 平铺结构

HBM 采用 垂直堆叠 DRAM die

DRAM Die
DRAM Die
DRAM Die
DRAM Die
Base Logic

多个 DRAM 芯片叠在一起,从而在很小面积内实现更大的带宽和容量。

2 TSV(Through-Silicon Via)

TSV 是 HBM 的核心连接技术。

它是在硅片内部打通微型导电通道,使不同层的芯片能够直接通信。 1

结构示意:

Layer 4  │
Layer 3  │ TSV 垂直连接
Layer 2  │
Layer 1  │
Base Die │

这种连接方式大幅增加并行数据通道。

3 2.5D封装(硅中介层)

HBM 通常通过 硅中介层(silicon interposer) 与 GPU 或 CPU 相连。3

结构示意:

GPU Die
   │
Silicon Interposer
   │
HBM Stack

这种封装方式使得:

  • 数据传输路径更短
  • 信号延迟更低
  • 带宽更高

五、HBM 的性能优势

HBM 的设计带来了明显性能优势。

1 极高带宽

HBM 的总线宽度非常大。

例如:

  • HBM1:约 128 GB/s
  • HBM2:约 307 GB/s
  • HBM3:约 819 GB/s
  • HBM3E:超过 1 TB/s

这些数据远高于传统 DDR 或 GDDR 内存。3

2 更低功耗

HBM 的数据路径更短,因此电压更低,能耗更小。 1

在大型 AI 数据中心中,这一点极其重要。

3 更高集成度

HBM 将内存与计算芯片放在同一封装内,使系统结构更紧凑。

这也是 AI 加速卡设计的重要趋势。

六、HBM 的产业价值

HBM 不只是一个技术概念,它已经成为 AI 产业链的关键环节

HBM 的主要厂商包括:

  • SK Hynix
  • Samsung
  • Micron

随着 AI 的爆发式增长,HBM 市场规模预计将快速扩大。

行业预测认为:

HBM 市场未来几年可能保持约 30% 的年增长率,并在 2030 年达到数百亿美元规模。 5

HBM 的价值体现在三个方面:

  1. AI 算力的核心基础设施
  2. GPU 性能的关键瓶颈
  3. 半导体产业的新竞争焦点

因此,HBM 也被称为 “AI时代的黄金内存”

七、HBM 的未来发展方向

HBM 技术仍在快速演进。

目前的发展路线主要包括以下几个方向。

1 更高带宽

HBM 标准已经发展到 HBM4。

HBM4 单堆栈带宽可达到 约 2 TB/s3

未来 AI 模型规模继续增长,对带宽需求也会持续提升。

2 更高容量

HBM 的容量正在持续增加。

例如 HBM4:

  • 单堆栈容量最高可达 64GB3

未来 AI 训练需要更大的模型权重缓存,这一点尤为重要。

3 PIM(Processing in Memory)

未来可能出现 HBM-PIM 架构。

这种技术将部分计算能力放入内存中,从而减少数据搬运。3

如果成功,可能改变 AI 芯片架构。

4 新型 AI 内存架构

研究人员还在探索新的 AI 内存形态,例如:

  • 高带宽闪存(HBF)
  • 新型 AI 专用内存架构

这些技术可能与 HBM 形成分层内存体系。

八、总结

HBM 是 AI 时代非常关键的硬件技术之一。

可以用一句话总结:

AI 的发展不仅依赖算力,也依赖带宽。

HBM 通过 3D堆叠、TSV连接和先进封装技术,大幅提升了内存带宽,使 GPU 和 AI 加速器能够充分发挥计算能力。

未来随着 AI 模型规模持续增长:

  • HBM 带宽将继续提升
  • 内存与计算将进一步融合
  • AI 硬件架构可能发生新的变革

如果你想真正理解 AI 基础设施,理解 GPU、算力集群、数据中心,那么 HBM 是一个非常值得深入研究的技术方向


  1. What is high-bandwidth memory? | Definition from TechTarget ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 高頻寬記憶體 HBM 全解析|HBM3E 是 AI 晶片的超級助攻? ↩︎

  3. High Bandwidth Memory - Wikipedia ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. Dynamic random-access memory - Wikipedia ↩︎

  5. What Is DRAM in RAM and GPUs? A Basic Definition | Tom’s Hardware ↩︎ ↩︎

  6. Dynamic random-access memory | electronics | Britannica ↩︎

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐