GPU 选型指南：A100 / H100 / 4090 / 910B 性价比分析

像风一样自由2020

10人浏览 · 2026-06-17 00:15:00

像风一样自由2020 · 2026-06-17 00:15:00 发布

GPU 选型指南：A100 / H100 / 4090 / 910B 性价比分析

《大模型知识与部署》系列 · No.21 / 35（工程实践篇开篇）
适合人群：AI 工程师、技术决策者、采购
阅读时间：约 28 分钟

在这里插入图片描述

写在前面

前 20 篇我们走完了认知 → 训练 → 推理优化 → 部署服务化的完整软件链路。从这一篇开始进入工程实践篇（第 21-25 篇），把视角从"软件"转向"硬件、运维、成本"。

第一站：GPU 选型。

这个话题对大模型团队特别敏感。原因很简单：

GPU 是大模型团队最大的单笔开支，占总成本的 70-90%。

对一家 AI 创业公司来说：

服务器折旧：占成本 60-80%
工程师工资：占成本 10-30%
其他：剩下的零头

GPU 买错、租错、用错——损失动辄百万级。这就是为什么这一篇虽然不写代码，但极其重要。

如果你做过相关工作，下面这些问题应该不陌生：

A100 现在停产了，怎么选替代？
8 张 4090 能不能替代 1 张 H100？
国产 910C 性能怎么样？什么场景能用？
自购 vs 云租赁 vs 包年，怎么算账？
二手 H100 能买吗？水货坑大不大？
H200 / B200 / B300 怎么选？

读完本文你将能：

看懂主流 GPU 的关键参数（算力、带宽、显存、互联）
算清「单位算力价格」与「TCO」
按业务场景（训练 / 推理 / 微调）选对硬件
决策自购 vs 租赁
评估国产 GPU 的真实可用性

我们开始。

一、GPU 选型决策对工程师的真实影响

1.1 几个真实的反面案例

案例 1：盲目追新

某创业公司 2024 年初等 H200 等了半年，错过了第一批客户。其实 8 卡 H100 完全够用。

案例 2：选错精度

某团队为了省钱买了 8 张 4090，结果发现训练 70B 微调跑不起来（不支持 NVLink 互联，TP 通信慢得离谱）。

案例 3：忽视带宽

某公司用 PCIe 互联的 H100 服务器，部署 70B 模型时性能只有官方报告的 40%。

案例 4：低估推理需求

某公司只买了训练用 GPU，没规划推理集群，上线时被迫紧急买 A10 卡，价格涨了 30%。

这些坑加起来，每个都是几十万到几百万的损失。

1.2 选型的核心维度

GPU 选型要看 5 个维度：

┌────────────────────────────────────────┐
│ 1. 算力 (TFLOPS)                        │
│    FP32 / FP16 / BF16 / FP8 / INT8     │
├────────────────────────────────────────┤
│ 2. 显存 (GB)                            │
│    容量 + 带宽 + 类型 (HBM3 / GDDR)     │
├────────────────────────────────────────┤
│ 3. 互联 (NVLink / PCIe / IB)            │
│    带宽决定能否做 TP                    │
├────────────────────────────────────────┤
│ 4. 功耗 (W)                             │
│    决定机房和供电要求                   │
├────────────────────────────────────────┤
│ 5. 价格 + 可获得性                      │
│    单价 + 渠道 + 周期                   │
└────────────────────────────────────────┘

下面我们用这 5 个维度看主流卡。

二、NVIDIA 主流 GPU 全景

2.1 数据中心卡

A100 系列（Ampere，2020）

A100 40GB / 80GB：经典之作，2020-2023 训练主力
算力：312 TFLOPS（FP16），624 TFLOPS（稀疏 BF16）
带宽：1.55 / 2.0 TB/s
互联：NVLink 3，600 GB/s
功耗：400W
价格（2026 中）：80G 二手约 ¥80K，新机已停产
当下地位：仍然主力——大量企业在用，性价比稳定

H100 系列（Hopper，2022）

H100 80GB SXM / PCIe：当下推理主力
算力：989 TFLOPS（FP16），1979 TFLOPS（FP8）
带宽：3.35 TB/s
互联：NVLink 4，900 GB/s
功耗：700W (SXM) / 350W (PCIe)
价格（2026 中）：单卡 SXM 约 ¥250K，PCIe 约 ¥220K
当下地位：性价比最优——综合能力强，供货稳定

H200（Hopper Refresh，2024）

算力：与 H100 相同（989 TFLOPS FP16）
显存：141 GB HBM3e（比 H100 多 76%）
带宽：4.8 TB/s（提升 43%）
功耗：700W
价格：约 ¥320K
甜蜜场景：长上下文部署，1 张 H200 = 接近 2 张 H100（KV Cache 维度）

B200（Blackwell，2024 末发布，2025 量产）

算力：2.25 PFLOPS（FP16），9 PFLOPS（FP4）
显存：192 GB HBM3e
带宽：8 TB/s
互联：NVLink 5，1.8 TB/s
功耗：1000W
价格（2026 中）：单卡约 ¥450K，整机 HGX B200 约 ¥4M+
甜蜜场景：训练 + 推理双优，FP4 推理性能爆表

B300（Blackwell Ultra，2025 末）

算力比 B200 提升 50%（1.5×）
显存：288 GB
价格：约 ¥600K
当下地位：2026 中刚开始出货，大部分团队还买不到

GB200 NVL72（整机柜方案）

72 张 B200 + 36 颗 Grace CPU
整机柜统一编程模型
单柜价格：约 ¥30M
甜蜜场景：超大规模训练、671B+ MoE 模型

2.2 消费级卡（数据中心二线选项）

RTX 4090（Ada，2022）

算力：83 TFLOPS（FP16），165 TFLOPS（FP8）
显存：24 GB GDDR6X
带宽：1 TB/s
没有 NVLink——这是关键限制
功耗：450W
价格（2026 中）：¥13K（涨过又跌过）
甜蜜场景：个人开发、小模型微调、本地推理、DP 多副本
死亡场景：TP 大模型（无 NVLink）

RTX 5090（Blackwell，2025）

算力：125 TFLOPS（FP16），250 TFLOPS（FP8）
显存：32 GB GDDR7
带宽：1.79 TB/s
仍然没有 NVLink
功耗：575W
价格（2026 中）：¥18K
比 4090 强 50%，但仍是消费卡定位

RTX 6000 Ada（专业卡）

显存：48 GB
算力接近 4090
有 NVLink Bridge（仅 2 卡）
价格：¥45K
甜蜜场景：工作站微调、小团队部署

2.3 主流卡参数总览

型号	显存	FP16 算力	带宽	互联	功耗	单价（2026.05）
A100 80G	80 GB	312 T	2.0 TB/s	NVLink 3	400W	¥80K（二手）
H100 SXM	80 GB	989 T	3.35 TB/s	NVLink 4	700W	¥250K
H200	141 GB	989 T	4.8 TB/s	NVLink 4	700W	¥320K
B200	192 GB	2250 T	8.0 TB/s	NVLink 5	1000W	¥450K
B300	288 GB	3375 T	9.6 TB/s	NVLink 5	1200W	¥600K
RTX 4090	24 GB	83 T	1.0 TB/s	❌	450W	¥13K
RTX 5090	32 GB	125 T	1.79 TB/s	❌	575W	¥18K
RTX 6000 Ada	48 GB	91 T	0.96 TB/s	双卡 NVLink	300W	¥45K

三、国产 GPU：从能用到好用

国产 GPU 在 2024-2026 经历了快速发展，2026 年已经是真正可生产的状态。

3.1 华为昇腾 Ascend 系列

910B（2023）

算力：FP16 约 320 TFLOPS（稀疏后）
显存：64 GB HBM2e
带宽：1.6 TB/s
互联：HCCS 392 GB/s（类 NVLink）
价格：约 ¥120K
生态：MindIE、CANN 软件栈
当下地位：央国企首选，互联网公司补充

910C（2024-2025）

算力：FP16 约 700 TFLOPS（性能翻倍）
显存：128 GB
带宽：3.0 TB/s
HCCS 升级到 600 GB/s
价格：约 ¥220K
甜蜜场景：替代 H100 的国产首选

910D（2026 中预计）

进一步对标 H200 / B200 部分指标
量产中

3.2 其他国产卡

厂商	型号	显存	状态
海光	深算 DCU K100 AI	64 GB	量产，价格 ~¥80K
摩尔线程	MTT S5000	64 GB	兼容 CUDA 生态
燧原	邃思 T20	64 GB	商用
寒武纪	思元 590 / 690	48 / 80 GB	训练推理两用
沐曦	曦云 C500	64 GB	量产

3.3 国产卡的真实可用性

软件生态：

软件栈	国产卡支持
PyTorch	多家通过移植层支持
vLLM	部分支持（如 vLLM-Ascend 分支）
Transformers	多数支持
Triton	部分支持
国产 SOTA 模型（Qwen、DeepSeek、GLM）	全面支持

真实性能差距（同等内存级别 vs H100）：

指标	910C / H100
FP16 算力	70%
显存带宽	90%
互联带宽	67%
实际推理吞吐	60-80%
生态成熟度	60%

坦诚的判断：

910C 能用，但生态仍在追赶
国产模型（Qwen、DeepSeek）在 910C 上跑得最稳
海外模型（Llama 4）适配可能有坑
央国企、政企、金融场景：910C 是合理选择
互联网创业公司：仍以 H100 / H200 为主

四、性能横评：相同任务不同卡

4.1 推理吞吐对比

测试：Llama-3-70B INT8，prompt 2K，生成 512，batch=16：

配置	总吞吐 (tokens/s)	单卡显存利用
1 × H100 80G	不够装	OOM
2 × A100 80G	1450	75%
2 × H100 80G	2800	80%
2 × H200 141G	3100	50%
1 × B200 192G	3800	65%
2 × 910C 128G	2300	60%
4 × RTX 4090（无 NVLink）	880	95%
4 × RTX 5090（无 NVLink）	1400	90%

关键观察：

H100 是 A100 的 ~2× 吞吐
B200 单卡 ≈ 2.5 × H100
910C 约 H100 的 80%
4090 多卡因没 NVLink 几乎不能 TP

4.2 训练吞吐对比

70B 模型预训练（千 token / GPU / 秒）：

卡	tokens/s/GPU
A100 80G	1200
H100 SXM	2800
H200	2900（IO 受益）
B200	6500
910C	2200

4.3 单位算力价格（“每 TFLOPS 元”)

卡	单价	FP16 TFLOPS	元/TFLOPS
A100 80G（二手）	80K	312	256
H100 SXM	250K	989	253 ⭐
H200	320K	989	323
B200	450K	2250	200 ⭐
RTX 4090	13K	83	157 ⭐⭐
RTX 5090	18K	125	144 ⭐⭐
910C	220K	700	314

结论：

消费卡单位算力最便宜——但你买不到 NVLink
B200 在数据中心卡里最优——算力翻倍价格不到 2 倍
H100 仍是综合最稳的选择——价格、生态、可获得性平衡

4.4 TCO（总拥有成本）三年视角

按 3 年折旧 + 电费 + 运维：

配置	采购	3 年电费	运维	TCO
8 × H100 SXM	¥2M	¥250K	¥150K	¥2.4M
8 × H200	¥2.56M	¥250K	¥150K	¥2.96M
8 × B200	¥3.6M	¥360K	¥150K	¥4.11M（但能力 ≈ 2× H100）
8 × 910C	¥1.76M	¥250K	¥200K	¥2.21M
8 × RTX 4090 工作站	¥104K + ¥200K（主机）	¥160K	¥80K	¥544K

结论：

大规模商用：H100 / H200 综合最优
政企合规：910C 性价比有竞争力
个人 / 研究：消费卡 + 妥协 TP

五、按场景选型

5.1 训练场景

模型规模	推荐配置
< 13B 微调	1-2 × H100 或 4 × RTX 4090
30B 微调	4-8 × H100
70B 微调（QLoRA）	1 × H100
70B 微调（全参）	8 × H100 起
70B 预训练	64+ × H100 集群
405B / 671B 预训练	千卡 H100/B200 集群

5.2 推理场景（生产级）

按业务规模：

业务规模	推荐
小流量 ToC（QPS < 10）	2 × H100 PCIe 即可
中流量 ToB	4-8 × H100 SXM
大流量 ToC（QPS 1000+）	H100 × N 多副本 / 加 B200
超大流量（QPS 10000+）	B200 + TensorRT-LLM
长上下文专用	H200 / B200（显存优势）
国企 / 政企	910C

5.3 微调场景

按团队预算：

预算	推荐方案
< 10 万	云租赁 H100（按小时）
10-50 万	1 × H100 工作站 / 2 × RTX 6000 Ada
50-200 万	4-8 × H100 服务器
200 万+	16 卡 H100 自有集群

5.4 端侧 / 个人

场景	推荐
Mac 用户	M3 Max / M4 Max 64GB
Windows 个人	RTX 4090 / 5090
移动 / 嵌入式	端侧 SoC（高通 8 Gen 4 / 苹果 A18 Pro）
笔记本	高性能游戏本 RTX 4090 mobile

六、租 vs 买：决策框架

6.1 自购 GPU 适合什么场景

✓ 长期稳定业务（> 2 年）
✓ 数据合规要求高
✓ 团队有运维能力
✓ 一次性预算充足

6.2 云租赁适合什么场景

✓ 业务波动大（活动期暴增）
✓ 短期试错（< 6 个月）
✓ 跨地域 / 跨可用区
✓ 不想自建机房

6.3 主流云 GPU 价格（按小时）

国际：

厂商	H100 SXM	H100 PCIe	A100
AWS p5.48xlarge	$98.32（8 卡）	-	-
Azure ND H100 v5	$98.32（8 卡）	-	-
GCP a3-highgpu	$88.50（8 卡）	-	-

国内：

厂商	H100 (¥/卡/小时)	A100 (¥/卡/小时)
阿里云	~¥45	~¥25
腾讯云	~¥42	~¥23
火山引擎	~¥40	~¥22
华为云（910C）	~¥30	-

第三方租赁平台（更便宜）：

平台	H100 价格	备注
Lambda Labs	$2.49/小时	美国，长期合约
Vast.ai	$1.50-3/小时	全球，质量参差
RunPod	$2.69/小时	美国，社区点评好
国内 AutoDL	~¥10/小时（A100）	易用，按秒计费

6.4 决策公式

自购回本周期：

回本月数 = 采购单价 / (月租费用 - 月电费 - 月维护)

举例：1 张 H100，单价 ¥250K
  云租 ¥45/小时 × 24 × 30 = ¥32.4K/月
  自购电费 + 折旧 + 维护 ≈ ¥5K/月
  
  回本：250K / (32.4K - 5K) ≈ 9 个月

结论：

使用率 > 50% 且周期 > 1 年：自购更划算
使用率 < 30% 或周期 < 6 月：租云更划算
混合模式：基线自购 + 高峰云租，最常见的工业实践

6.5 二手 GPU 市场

2026 年 H100 二手市场已经很活跃：

来源	风险	价格
大厂淘汰	中（有保修但可能水卡）	8 折
矿卡转售	高（功耗损耗）	6-7 折
库存	低	9.5 折
渠道 / 灰色	极高（可能锁卡）	6 折

建议：

二手只在「成本极限敏感 + 风险可控」场景考虑
必须有压力测试 + 退换条款
大型集群尽量买全新带保修

七、采购建议 + 下一篇预告

7.1 2026 年中最实用的采购组合

给不同团队的推荐：

创业团队（< 100 人）

开发：2-4 × RTX 5090 工作站
微调 / 内测：租云 H100 按需
生产：1-2 套 8 卡 H100 服务器

中型公司（100-500 人）

研究 / 训练：32-64 张 H100 自有集群
生产推理：H100 / H200 多副本
端侧验证：M3 Max Mac

大厂

训练大集群：万卡 H100/B200 + IB
推理：H100 / H200 / B200 混部
长期：B200 / B300 替换 + GB200 NVL72

央国企 / 政府

合规优先：910C / 海光 DCU
混合：910C + 部分 H100（重要场景）

7.2 选型决策清单

下单前必问的 8 个问题：

模型规模和精度？（决定显存）
是单卡推理还是多卡 TP？（决定 NVLink 需求）
上下文长度多少？（决定 KV Cache，可能要 H200）
训练还是推理为主？（决定带宽 vs 算力权重）
团队有运维能力吗？（决定自购 vs 云）
周期多长？（决定回本判断）
数据合规要求？（决定能否上云）
国产化要求？（决定 NVIDIA vs 910C）

7.3 不要踩的 6 个坑

坑 1：忽视互联

症状：买了 8 张 GPU 跑 TP，性能只有官方报告 40%。

对策：买 SXM / NVLink 版本，不要买 PCIe 强行 TP。

坑 2：显存不够选错代

症状：H100 80G 跑不动 1M 上下文 70B。

对策：长上下文优先 H200（141G）/ B200（192G）。

坑 3：忘了功耗

症状：8 张 H100 SXM = 5.6kW，机房供电 / 散热 / UPS 都要升级。

对策：提前算总功耗，配套机房改造。

坑 4：消费卡跑生产

症状：4090 集群上线 ToC 业务，三天烧坏 2 张。

对策：消费卡不适合 7×24 高负载，生产环境用专业卡。

坑 5：低估软件成本

症状：910C 买回来发现 vLLM 不能直接跑。

对策：选型时把"软件适配工时"算入成本。

坑 6：忽视折旧节奏

症状：刚买的 H100，半年后 H200 + B200 上市，价格腰斩。

对策：评估代际更替节奏，重要场景用最新代。

7.4 下一篇预告

第 22 篇：集群运维 - 监控、调度、容灾全攻略 —— 你买了 / 租了 GPU 集群，怎么把它稳定运转起来？我们会讲清楚 GPU 监控、故障检测、训练 checkpoint 容错、推理服务高可用全套实践。
之后是模型权重管理（23 篇）、显存优化（24 篇）、TCO 测算（25 篇）。

结语：硬件选型是大模型工程的「定盘星」

读完本文你应该明白：

H100 / H200 是 2026 年的主力卡——B200 在追赶
国产 910C 已经可用——尤其在政企场景
消费卡不能做大规模 TP——4090 / 5090 无 NVLink 是硬伤
使用率 > 50% 自购划算，否则租云
B200 单位算力性价比最优——但供货是问题
选型决策 8 大问题 + 6 大坑要逐一排查

下一篇我们继续：

第 22 篇：集群运维 - 监控、调度、容灾全攻略 —— 硬件买来只是开始，让它 7×24 稳定服务才是真本事。

我们下篇见。

📮 关于「码海寻道」
这里是一个聚焦 AI 工程化、大模型部署、后端架构实战的技术专栏。
写最一线的踩坑经验，做最务实的技术拆解。

如果这篇文章对你有启发，欢迎点赞、转发、关注。我们下篇见。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

【公开测试招募】九章排错法：没有查不出来的bug，不靠经验，只靠规则

【摘要】"九章排错法"公开测试招募开启，提供标准化代码排错解决方案。该方法宣称不依赖经验，通过统一规则覆盖所有编程语言（C/C++/Python等）、代码类型（内核/框架/应用）和问题类型（架构/内存/数值等），10倍于人工的排错效率，3分钟完成千行代码分析。已成功验证于龙芯内核、昇腾算子等复杂场景，可生成带修复建议的标准化报告，区分代码缺陷与外部问题。测试免费开放，支持脱敏代码提交，承诺无死角定