1000万人口的社保智能客服——本地化部署的成本算力与信创选择

yuhou25

309人浏览 · 2026-06-24 09:50:54

yuhou25 · 2026-06-24 09:50:54 发布

1000万人口的社保智能客服——本地化部署的成本、算力与信创选择

文章目录

1000万人口的社保智能客服——本地化部署的成本、算力与信创选择

一、为什么社保智能客服必须本地化

先说一个前提：社保智能客服的LLM不能走公有云API。

不是技术问题，是合规问题。参保人的姓名、身份证号、社保缴费记录、医疗消费明细——这些都是《个人信息保护法》里明确定义的敏感个人信息。用公有云API意味着数据要通过互联网传出去，任何一个环节没拦住，出事了就是大事故。

所以部署方案只有一个选项：全链路本地化。LLM推理在本地GPU上跑，向量检索在本地Milvus上跑，会话保存在本地Redis上。数据不出政务内网，从物理上堵住外泄风险。

这条红线不可商量，剩下的问题都是工程问题：

1000万人口的省，要多少算力？
用英伟达还是国产昇腾？
多少钱？怎么跟领导汇报预算？

二、用1000万人口做一张算力需求表

以小型省份为参考：1000万常住人口，约700万参保人。这个规模在省级单位中算小的——比它大的有3000万、5000万。先把小规模的算力需求算清楚，再等比放大。

社保办事不是电商，不是谁每天都上去买东西。一个大致的经验公式：

日均请求量 = 参保人数 × 日活跃率 × 人均交互轮次

700万参保人，日均活跃率保守按 2‰ 算（每天有1.4万人使用），人均交互轮次按 10轮 算：

日请求量 ≈ 14万次
高峰时段（9:00-11:00）占全天请求量的 60%，即约8.4万次
那2小时内，平均 QPS ≈ 8.4万 / 7200s ≈ 12 QPS
考虑峰值波动，预估峰值 QPS 约 20-30

加上 RAG 检索 + embedding 计算的开销，实际的 LLM 推理 QPS 需求在 30-40 左右比较稳妥。如果再留20%余量，目标是 40-50 QPS。

规模	常住人口	参保人数	日均请求	峰值QPS	推荐配置
小型省	1000万	700万	14万	20-30	4×A800 或 5-6×昇腾910B
中型省	3000万	2000万	40万	60-70	8×A800 或 10-12×昇腾910B
大型省	5000万	3500万	70万	100-120	12-16×A800 或 16-24×昇腾910B

实际活跃率跟推广力度强相关。如果接入APP首页+小程序+公众号三个入口，日活可能到5‰甚至更高。建议部署时预留扩展槽位。

三、两套GPU方案：A800 vs 昇腾910B

方案一：英伟达 A800 80GB

配置	并发	一次性成本	适用
2卡	30-50 QPS	55-65万	市级/低峰期
4卡（推荐）	60-90 QPS	110-130万	小型省，有余量
6卡	90-130 QPS	170-200万	冗余过度

跑 vLLM 的 continuous batching，DeepSeek V4 Flash INT4 量化，单次 RAG 问答响应时间 2-3秒。4卡可以稳定撑住 60-90 QPS，日常跑20-30绰绰有余，峰值不怕。

优点是生态成熟、vLLM支持好、社区踩坑少。缺点是断供风险——美国制裁随时可能让后续采购卡住，所以方案一适合"先用起来，不纠结长期增购"的场景。

方案二：华为昇腾 910B 64GB

配置	并发	一次性成本	优缺点
5-6卡	60-90 QPS	40-60万	国产合规，需适配
8卡	90-130 QPS	64-80万	余量充足

910B 单卡算力大约是 A800 的 80%，但单价只有 A800 的 1/3 到 1/2。达到同样的并发需要多配 25% 的卡数，但总价更低。

真正的门槛不是价格，是适配。910B 跑大模型要走昇腾的 mindie 推理框架，不是直接拿 vLLM 就能跑。适配周期可能是几周到一个月。但一旦适配完成，信创合规这一条就满分——招标文件里"优先采用国产算力"的要求可以直接满足，不用解释。

两套方案怎么选

考量	A800	昇腾910B
总成本	110-130万	40-80万
信创合规	需另外解释	天然满分
部署速度	1-2周	3-5周（含适配）
后续采购	可能有断供风险	国产供应链稳定
社区支持	成熟	较新

如果项目时间充裕、需要过信创审计，选昇腾。如果赶时间上线、先跑效果再谈合规，选A800。

四、不只是GPU：其他资源怎么配

很多人一谈部署就只算GPU，忘了引擎周边还有一堆配套资源：

资源	规格	月成本（政务云内部价）	说明
LLM推理	4×A800或6×昇腾910B	硬件一次性	核心支出
Redis	8GB主备	几百块	存会话+SOP
Milvus	16C 32G + 200GB SSD	一两千	向量数据库
HTTPS服务	4C 8G + 10Mbps	几百块	Flask + Nginx
对象存储	500GB	几十块	上传照片临时存储

除GPU外，月度云资源费用加起来不超过三四千块。真正的预算大头永远是GPU，其他都是零头。

五、一个经常被忽视的省钱建议

政务云可能有省级统一算力池。

很多省的大数据局已经采购了一批GPU服务器放在政务云上，各个厅局的项目可以直接申请算力额度。如果你的省有这个池子，自购GPU的钱就不用花了——从算力池里申请几卡就行，费用走政务云内部结算。

所以在做预算之前，先问省大数据局：有没有统一算力池？能不能申请？额度够不够？

这件事看起来简单，但实际项目中经常被忽略。很多项目组上来就算GPU配置、报采购预算，汇报了一大圈，最后发现可以用现成的。一个电话能省几十万。

六、便民——这些算力最终服务谁

12个业务类型，涵盖了一个普通人跟社保打交道的全部场景：

类型	业务
查询类	养老金发放查询、缴费记录查询
办理类	养老金资格认证（刷脸）、社保关系转移、参保证明开具、参保登记、个人信息修改、异地就医备案、社保卡申领、医疗费用报销、失业保险金申领、生育保险申领

以前办这些事情要去社保大厅——排队、填表、等叫号。现在打开手机对着说"我要办社保关系转移"，Agent 自动引导填4个字段，提交后后台处理完推送结果。

最直接的便利不是"AI很酷"，而是看不懂政策的人终于能自己把事情办了。系统的价值不在LLM本身，在「零门槛」。

七、总结

这套方案的核心逻辑：

LLM必须本地部署——社保数据不能出域，不是选择题
GPU按参保人口推算——700万参保→峰值30-40 QPS→4卡A800或6卡昇腾910B
方案可以等比缩放——换成300万人的市就砍半，换成1500万人的省就加50%
昇腾是信创的最优解——比A800便宜，还自带合规加分
先问大数据局有没有算力池——一个电话可能省几十万
便民不是技术指标——是让不懂政策的人也能自己办事

这个方案给的是小型省份（1000万人口）的数据。但方法是通用的——换一套人口数字进去，QPS、卡数、预算都能等比算出来。

附：系统技术栈 — DeepSeek V4 Flash INT4 + Ollama(BGE-M3) + Milvus + Redis + Flask HTTPS，Python 3.11+。核心代码约2000行，12个业务类型均实现桩数据，待联调业务API和人脸服务后即可生产部署。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

电脑端实用玩机工具

人工智能6S服务平台

开源鸿蒙系统应用技术总结

ArkTS是HarmonyOS生态的核心开发语言，基于TypeScript扩展，具备声明式UI等特性。本文梳理ArkTS四大模块：布局系统（Column、Row、Stack）、UI组件（Text、TextInput、Button）、状态管理（@State）和交互事件（onClick/onChange）。通过综合案例实践，详解动态页面开发逻辑：布局嵌套构建骨架→组件填充内容→状态驱动UI更新→事件触