GPU 选型指南:A100 / H100 / 4090 / 910B 性价比分析

《大模型知识与部署》系列 · No.21 / 35(工程实践篇开篇)
适合人群:AI 工程师、技术决策者、采购
阅读时间:约 28 分钟


在这里插入图片描述

写在前面

前 20 篇我们走完了认知 → 训练 → 推理优化 → 部署服务化的完整软件链路。从这一篇开始进入工程实践篇(第 21-25 篇),把视角从"软件"转向"硬件、运维、成本"。

第一站:GPU 选型。

这个话题对大模型团队特别敏感。原因很简单:

GPU 是大模型团队最大的单笔开支,占总成本的 70-90%。

对一家 AI 创业公司来说:

  • 服务器折旧:占成本 60-80%
  • 工程师工资:占成本 10-30%
  • 其他:剩下的零头

GPU 买错、租错、用错——损失动辄百万级。这就是为什么这一篇虽然不写代码,但极其重要。

如果你做过相关工作,下面这些问题应该不陌生:

  • A100 现在停产了,怎么选替代?
  • 8 张 4090 能不能替代 1 张 H100?
  • 国产 910C 性能怎么样?什么场景能用?
  • 自购 vs 云租赁 vs 包年,怎么算账?
  • 二手 H100 能买吗?水货坑大不大?
  • H200 / B200 / B300 怎么选?

读完本文你将能:

  1. 看懂主流 GPU 的关键参数(算力、带宽、显存、互联)
  2. 算清「单位算力价格」与「TCO」
  3. 按业务场景(训练 / 推理 / 微调)选对硬件
  4. 决策自购 vs 租赁
  5. 评估国产 GPU 的真实可用性

我们开始。


一、GPU 选型决策对工程师的真实影响

1.1 几个真实的反面案例

案例 1:盲目追新

某创业公司 2024 年初等 H200 等了半年,错过了第一批客户。其实 8 卡 H100 完全够用。

案例 2:选错精度

某团队为了省钱买了 8 张 4090,结果发现训练 70B 微调跑不起来(不支持 NVLink 互联,TP 通信慢得离谱)。

案例 3:忽视带宽

某公司用 PCIe 互联的 H100 服务器,部署 70B 模型时性能只有官方报告的 40%。

案例 4:低估推理需求

某公司只买了训练用 GPU,没规划推理集群,上线时被迫紧急买 A10 卡,价格涨了 30%。

这些坑加起来,每个都是几十万到几百万的损失。

1.2 选型的核心维度

GPU 选型要看 5 个维度

┌────────────────────────────────────────┐
│ 1. 算力 (TFLOPS)                        │
│    FP32 / FP16 / BF16 / FP8 / INT8     │
├────────────────────────────────────────┤
│ 2. 显存 (GB)                            │
│    容量 + 带宽 + 类型 (HBM3 / GDDR)     │
├────────────────────────────────────────┤
│ 3. 互联 (NVLink / PCIe / IB)            │
│    带宽决定能否做 TP                    │
├────────────────────────────────────────┤
│ 4. 功耗 (W)                             │
│    决定机房和供电要求                   │
├────────────────────────────────────────┤
│ 5. 价格 + 可获得性                      │
│    单价 + 渠道 + 周期                   │
└────────────────────────────────────────┘

下面我们用这 5 个维度看主流卡。


二、NVIDIA 主流 GPU 全景

2.1 数据中心卡

A100 系列(Ampere,2020)
  • A100 40GB / 80GB:经典之作,2020-2023 训练主力
  • 算力:312 TFLOPS(FP16),624 TFLOPS(稀疏 BF16)
  • 带宽:1.55 / 2.0 TB/s
  • 互联:NVLink 3,600 GB/s
  • 功耗:400W
  • 价格(2026 中):80G 二手约 ¥80K,新机已停产
  • 当下地位仍然主力——大量企业在用,性价比稳定
H100 系列(Hopper,2022)
  • H100 80GB SXM / PCIe:当下推理主力
  • 算力:989 TFLOPS(FP16),1979 TFLOPS(FP8)
  • 带宽:3.35 TB/s
  • 互联:NVLink 4,900 GB/s
  • 功耗:700W (SXM) / 350W (PCIe)
  • 价格(2026 中):单卡 SXM 约 ¥250K,PCIe 约 ¥220K
  • 当下地位性价比最优——综合能力强,供货稳定
H200(Hopper Refresh,2024)
  • 算力:与 H100 相同(989 TFLOPS FP16)
  • 显存:141 GB HBM3e(比 H100 多 76%)
  • 带宽:4.8 TB/s(提升 43%)
  • 功耗:700W
  • 价格:约 ¥320K
  • 甜蜜场景:长上下文部署,1 张 H200 = 接近 2 张 H100(KV Cache 维度)
B200(Blackwell,2024 末发布,2025 量产)
  • 算力:2.25 PFLOPS(FP16),9 PFLOPS(FP4)
  • 显存:192 GB HBM3e
  • 带宽:8 TB/s
  • 互联:NVLink 5,1.8 TB/s
  • 功耗:1000W
  • 价格(2026 中):单卡约 ¥450K,整机 HGX B200 约 ¥4M+
  • 甜蜜场景:训练 + 推理双优,FP4 推理性能爆表
B300(Blackwell Ultra,2025 末)
  • 算力比 B200 提升 50%(1.5×)
  • 显存:288 GB
  • 价格:约 ¥600K
  • 当下地位:2026 中刚开始出货,大部分团队还买不到
GB200 NVL72(整机柜方案)
  • 72 张 B200 + 36 颗 Grace CPU
  • 整机柜统一编程模型
  • 单柜价格:约 ¥30M
  • 甜蜜场景:超大规模训练、671B+ MoE 模型

2.2 消费级卡(数据中心二线选项)

RTX 4090(Ada,2022)
  • 算力:83 TFLOPS(FP16),165 TFLOPS(FP8)
  • 显存:24 GB GDDR6X
  • 带宽:1 TB/s
  • 没有 NVLink——这是关键限制
  • 功耗:450W
  • 价格(2026 中):¥13K(涨过又跌过)
  • 甜蜜场景:个人开发、小模型微调、本地推理、DP 多副本
  • 死亡场景:TP 大模型(无 NVLink)
RTX 5090(Blackwell,2025)
  • 算力:125 TFLOPS(FP16),250 TFLOPS(FP8)
  • 显存:32 GB GDDR7
  • 带宽:1.79 TB/s
  • 仍然没有 NVLink
  • 功耗:575W
  • 价格(2026 中):¥18K
  • 比 4090 强 50%,但仍是消费卡定位
RTX 6000 Ada(专业卡)
  • 显存:48 GB
  • 算力接近 4090
  • 有 NVLink Bridge(仅 2 卡)
  • 价格:¥45K
  • 甜蜜场景:工作站微调、小团队部署

2.3 主流卡参数总览

型号 显存 FP16 算力 带宽 互联 功耗 单价(2026.05)
A100 80G 80 GB 312 T 2.0 TB/s NVLink 3 400W ¥80K(二手)
H100 SXM 80 GB 989 T 3.35 TB/s NVLink 4 700W ¥250K
H200 141 GB 989 T 4.8 TB/s NVLink 4 700W ¥320K
B200 192 GB 2250 T 8.0 TB/s NVLink 5 1000W ¥450K
B300 288 GB 3375 T 9.6 TB/s NVLink 5 1200W ¥600K
RTX 4090 24 GB 83 T 1.0 TB/s 450W ¥13K
RTX 5090 32 GB 125 T 1.79 TB/s 575W ¥18K
RTX 6000 Ada 48 GB 91 T 0.96 TB/s 双卡 NVLink 300W ¥45K

三、国产 GPU:从能用到好用

国产 GPU 在 2024-2026 经历了快速发展,2026 年已经是真正可生产的状态

3.1 华为昇腾 Ascend 系列

910B(2023)
  • 算力:FP16 约 320 TFLOPS(稀疏后)
  • 显存:64 GB HBM2e
  • 带宽:1.6 TB/s
  • 互联:HCCS 392 GB/s(类 NVLink)
  • 价格:约 ¥120K
  • 生态:MindIE、CANN 软件栈
  • 当下地位:央国企首选,互联网公司补充
910C(2024-2025)
  • 算力:FP16 约 700 TFLOPS(性能翻倍)
  • 显存:128 GB
  • 带宽:3.0 TB/s
  • HCCS 升级到 600 GB/s
  • 价格:约 ¥220K
  • 甜蜜场景:替代 H100 的国产首选
910D(2026 中预计)
  • 进一步对标 H200 / B200 部分指标
  • 量产中

3.2 其他国产卡

厂商 型号 显存 状态
海光 深算 DCU K100 AI 64 GB 量产,价格 ~¥80K
摩尔线程 MTT S5000 64 GB 兼容 CUDA 生态
燧原 邃思 T20 64 GB 商用
寒武纪 思元 590 / 690 48 / 80 GB 训练推理两用
沐曦 曦云 C500 64 GB 量产

3.3 国产卡的真实可用性

软件生态

软件栈 国产卡支持
PyTorch 多家通过移植层支持
vLLM 部分支持(如 vLLM-Ascend 分支)
Transformers 多数支持
Triton 部分支持
国产 SOTA 模型(Qwen、DeepSeek、GLM) 全面支持

真实性能差距(同等内存级别 vs H100):

指标 910C / H100
FP16 算力 70%
显存带宽 90%
互联带宽 67%
实际推理吞吐 60-80%
生态成熟度 60%

坦诚的判断

  • 910C 能用,但生态仍在追赶
  • 国产模型(Qwen、DeepSeek)在 910C 上跑得最稳
  • 海外模型(Llama 4)适配可能有坑
  • 央国企、政企、金融场景:910C 是合理选择
  • 互联网创业公司:仍以 H100 / H200 为主

四、性能横评:相同任务不同卡

4.1 推理吞吐对比

测试:Llama-3-70B INT8,prompt 2K,生成 512,batch=16:

配置 总吞吐 (tokens/s) 单卡显存利用
1 × H100 80G 不够装 OOM
2 × A100 80G 1450 75%
2 × H100 80G 2800 80%
2 × H200 141G 3100 50%
1 × B200 192G 3800 65%
2 × 910C 128G 2300 60%
4 × RTX 4090(无 NVLink) 880 95%
4 × RTX 5090(无 NVLink) 1400 90%

关键观察

  • H100 是 A100 的 ~2× 吞吐
  • B200 单卡 ≈ 2.5 × H100
  • 910C 约 H100 的 80%
  • 4090 多卡因没 NVLink 几乎不能 TP

4.2 训练吞吐对比

70B 模型预训练(千 token / GPU / 秒):

tokens/s/GPU
A100 80G 1200
H100 SXM 2800
H200 2900(IO 受益)
B200 6500
910C 2200

4.3 单位算力价格(“每 TFLOPS 元”)

单价 FP16 TFLOPS 元/TFLOPS
A100 80G(二手) 80K 312 256
H100 SXM 250K 989 253
H200 320K 989 323
B200 450K 2250 200
RTX 4090 13K 83 157 ⭐⭐
RTX 5090 18K 125 144 ⭐⭐
910C 220K 700 314

结论

  • 消费卡单位算力最便宜——但你买不到 NVLink
  • B200 在数据中心卡里最优——算力翻倍价格不到 2 倍
  • H100 仍是综合最稳的选择——价格、生态、可获得性平衡

4.4 TCO(总拥有成本)三年视角

按 3 年折旧 + 电费 + 运维:

配置 采购 3 年电费 运维 TCO
8 × H100 SXM ¥2M ¥250K ¥150K ¥2.4M
8 × H200 ¥2.56M ¥250K ¥150K ¥2.96M
8 × B200 ¥3.6M ¥360K ¥150K ¥4.11M(但能力 ≈ 2× H100)
8 × 910C ¥1.76M ¥250K ¥200K ¥2.21M
8 × RTX 4090 工作站 ¥104K + ¥200K(主机) ¥160K ¥80K ¥544K

结论

  • 大规模商用:H100 / H200 综合最优
  • 政企合规:910C 性价比有竞争力
  • 个人 / 研究:消费卡 + 妥协 TP

五、按场景选型

5.1 训练场景

模型规模 推荐配置
< 13B 微调 1-2 × H100 或 4 × RTX 4090
30B 微调 4-8 × H100
70B 微调(QLoRA) 1 × H100
70B 微调(全参) 8 × H100 起
70B 预训练 64+ × H100 集群
405B / 671B 预训练 千卡 H100/B200 集群

5.2 推理场景(生产级)

按业务规模:

业务规模 推荐
小流量 ToC(QPS < 10) 2 × H100 PCIe 即可
中流量 ToB 4-8 × H100 SXM
大流量 ToC(QPS 1000+) H100 × N 多副本 / 加 B200
超大流量(QPS 10000+) B200 + TensorRT-LLM
长上下文专用 H200 / B200(显存优势)
国企 / 政企 910C

5.3 微调场景

按团队预算:

预算 推荐方案
< 10 万 云租赁 H100(按小时)
10-50 万 1 × H100 工作站 / 2 × RTX 6000 Ada
50-200 万 4-8 × H100 服务器
200 万+ 16 卡 H100 自有集群

5.4 端侧 / 个人

场景 推荐
Mac 用户 M3 Max / M4 Max 64GB
Windows 个人 RTX 4090 / 5090
移动 / 嵌入式 端侧 SoC(高通 8 Gen 4 / 苹果 A18 Pro)
笔记本 高性能游戏本 RTX 4090 mobile

六、租 vs 买:决策框架

6.1 自购 GPU 适合什么场景

✓ 长期稳定业务(> 2 年)
✓ 数据合规要求高
✓ 团队有运维能力
✓ 一次性预算充足

6.2 云租赁适合什么场景

✓ 业务波动大(活动期暴增)
✓ 短期试错(< 6 个月)
✓ 跨地域 / 跨可用区
✓ 不想自建机房

6.3 主流云 GPU 价格(按小时)

国际

厂商 H100 SXM H100 PCIe A100
AWS p5.48xlarge $98.32(8 卡) - -
Azure ND H100 v5 $98.32(8 卡) - -
GCP a3-highgpu $88.50(8 卡) - -

国内

厂商 H100 (¥/卡/小时) A100 (¥/卡/小时)
阿里云 ~¥45 ~¥25
腾讯云 ~¥42 ~¥23
火山引擎 ~¥40 ~¥22
华为云(910C) ~¥30 -

第三方租赁平台(更便宜):

平台 H100 价格 备注
Lambda Labs $2.49/小时 美国,长期合约
Vast.ai $1.50-3/小时 全球,质量参差
RunPod $2.69/小时 美国,社区点评好
国内 AutoDL ~¥10/小时(A100) 易用,按秒计费

6.4 决策公式

自购回本周期

回本月数 = 采购单价 / (月租费用 - 月电费 - 月维护)

举例:1 张 H100,单价 ¥250K
  云租 ¥45/小时 × 24 × 30 = ¥32.4K/月
  自购电费 + 折旧 + 维护 ≈ ¥5K/月
  
  回本:250K / (32.4K - 5K) ≈ 9 个月

结论

  • 使用率 > 50% 且周期 > 1 年:自购更划算
  • 使用率 < 30% 或周期 < 6 月:租云更划算
  • 混合模式:基线自购 + 高峰云租,最常见的工业实践

6.5 二手 GPU 市场

2026 年 H100 二手市场已经很活跃:

来源 风险 价格
大厂淘汰 中(有保修但可能水卡) 8 折
矿卡转售 高(功耗损耗) 6-7 折
库存 9.5 折
渠道 / 灰色 极高(可能锁卡) 6 折

建议

  • 二手只在「成本极限敏感 + 风险可控」场景考虑
  • 必须有压力测试 + 退换条款
  • 大型集群尽量买全新带保修

七、采购建议 + 下一篇预告

7.1 2026 年中最实用的采购组合

给不同团队的推荐

创业团队(< 100 人)
开发:2-4 × RTX 5090 工作站
微调 / 内测:租云 H100 按需
生产:1-2 套 8 卡 H100 服务器
中型公司(100-500 人)
研究 / 训练:32-64 张 H100 自有集群
生产推理:H100 / H200 多副本
端侧验证:M3 Max Mac
大厂
训练大集群:万卡 H100/B200 + IB
推理:H100 / H200 / B200 混部
长期:B200 / B300 替换 + GB200 NVL72
央国企 / 政府
合规优先:910C / 海光 DCU
混合:910C + 部分 H100(重要场景)

7.2 选型决策清单

下单前必问的 8 个问题:

  • 模型规模和精度?(决定显存)
  • 是单卡推理还是多卡 TP?(决定 NVLink 需求)
  • 上下文长度多少?(决定 KV Cache,可能要 H200)
  • 训练还是推理为主?(决定带宽 vs 算力权重)
  • 团队有运维能力吗?(决定自购 vs 云)
  • 周期多长?(决定回本判断)
  • 数据合规要求?(决定能否上云)
  • 国产化要求?(决定 NVIDIA vs 910C)

7.3 不要踩的 6 个坑

坑 1:忽视互联

症状:买了 8 张 GPU 跑 TP,性能只有官方报告 40%。

对策:买 SXM / NVLink 版本,不要买 PCIe 强行 TP。

坑 2:显存不够选错代

症状:H100 80G 跑不动 1M 上下文 70B。

对策:长上下文优先 H200(141G)/ B200(192G)。

坑 3:忘了功耗

症状:8 张 H100 SXM = 5.6kW,机房供电 / 散热 / UPS 都要升级。

对策:提前算总功耗,配套机房改造。

坑 4:消费卡跑生产

症状:4090 集群上线 ToC 业务,三天烧坏 2 张。

对策:消费卡不适合 7×24 高负载,生产环境用专业卡。

坑 5:低估软件成本

症状:910C 买回来发现 vLLM 不能直接跑。

对策:选型时把"软件适配工时"算入成本。

坑 6:忽视折旧节奏

症状:刚买的 H100,半年后 H200 + B200 上市,价格腰斩。

对策:评估代际更替节奏,重要场景用最新代。

7.4 下一篇预告

  • 第 22 篇:集群运维 - 监控、调度、容灾全攻略 —— 你买了 / 租了 GPU 集群,怎么把它稳定运转起来?我们会讲清楚 GPU 监控、故障检测、训练 checkpoint 容错、推理服务高可用全套实践。
  • 之后是模型权重管理(23 篇)、显存优化(24 篇)、TCO 测算(25 篇)。

结语:硬件选型是大模型工程的「定盘星」

读完本文你应该明白:

  • H100 / H200 是 2026 年的主力卡——B200 在追赶
  • 国产 910C 已经可用——尤其在政企场景
  • 消费卡不能做大规模 TP——4090 / 5090 无 NVLink 是硬伤
  • 使用率 > 50% 自购划算,否则租云
  • B200 单位算力性价比最优——但供货是问题
  • 选型决策 8 大问题 + 6 大坑要逐一排查

下一篇我们继续:

  • 第 22 篇:集群运维 - 监控、调度、容灾全攻略 —— 硬件买来只是开始,让它 7×24 稳定服务才是真本事。

我们下篇见。


📮 关于「码海寻道」
这里是一个聚焦 AI 工程化、大模型部署、后端架构实战的技术专栏。
写最一线的踩坑经验,做最务实的技术拆解。

如果这篇文章对你有启发,欢迎点赞、转发、关注。我们下篇见。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐