MS-SWIFT是一款由阿里魔搭社区开源的大模型微调部署框架,支持600+纯文本大模型和400+多模态大模型,具备显存要求低、上手门槛低三大核心优势。它内置了150+数据集和多种训练方式,如预训练、指令微调、偏好对齐等,并支持多种硬件平台。MS-SWIFT还集成了Megatron并行加速技术,可显著提升超大模型训练速度。此外,它还支持多模态训练和一键量化部署,并提供Web界面实现零代码操作。MS-SWIFT适用于个人学习、企业微调、大规模训练和快速部署等多种场景,是大模型微调工具的理想选择。


魔搭社区出品,AAAI 2025 收录,支持 1000+ 模型的一站式微调部署方案


什么是 MS-SWIFT?

MS-SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是阿里魔搭社区开源的大模型微调部署框架,让普通开发者也能轻松完成大模型的训练、推理、评测、量化和部署。

一句话总结:想微调大模型?用它就对了!

最近正利用MS-WIFT做微调实验;


为什么选择 MS-SWIFT?

三大核心优势

1️⃣ 模型覆盖全

  • 600+ 纯文本大模型
  • 400+ 多模态大模型
  • 热门新模型 Day0 支持

支持 Qwen3.5、Qwen3、DeepSeek-R1、Llama4、GLM4.5、InternLM3 等主流模型,多模态支持 Qwen3-VL、InternVL3.5、MiniCPM-V 等。

2️⃣ 显存要求低

  • 7B 模型微调仅需 9GB 显存
  • 支持 QLoRA、LoRA 等轻量微调
  • RTX 3090 即可训练主流模型

3️⃣ 上手门槛低

  • 一行命令启动训练
  • Web 界面零代码操作
  • 内置 150+ 数据集开箱即用

核心功能速览

支持的训练方式

类型 方法
基础训练 预训练、指令微调(SFT)
偏好对齐 DPO、KTO、CPO、SimPO、ORPO
强化学习 GRPO、DAPO、PPO、Reinforce++
特殊任务 Embedding、Reranker、序列分类

支持的硬件

  • NVIDIA:A100/H100、RTX 系列、T4/V100
  • 国产:华为昇腾 NPU
  • 其他:Apple MPS、CPU

10 分钟快速体验

安装

pip install ms-swift -U

训练(以 Qwen3-4B 为例)

swift sft \
--model Qwen/Qwen3-4B-Instruct-2507 \
--dataset swift/self-cognition#500 \
--tuner_type lora \
--lora_rank 8 \
--output_dir output

推理

swift infer \
--adapters output/checkpoint-xxx \
--stream true

就这么简单!


亮点功能详解

1. GRPO 强化学习

GRPO 是 DeepSeek 提出的高效强化学习算法,MS-SWIFT 内置了完整的 GRPO 族算法:

  • GRPO - 基础版本
  • DAPO - 动态优势
  • GSPO - 组稀疏优化
  • Reinforce++ - 增强版

一行命令开启强化学习:

swift rlhf --rlhf_type grpo --use_vllm true

2. Megatron 并行加速

针对超大模型训练,MS-SWIFT 集成了 Megatron 并行技术:

并行方式 作用
张量并行(TP) 切分模型参数
流水线并行(PP) 切分模型层
序列并行(SP) 切分长序列
专家并行(EP) MoE 模型加速

实测对比(Qwen3-30B MoE 模型):

  • Megatron:9.6s/it
  • DeepSpeed ZeRO3:91.2s/it

提速近 10 倍!

3. 多模态训练

支持图像、视频、语音混合训练:

swift sft \
--model Qwen/Qwen2-VL-7B-Instruct \
--dataset <多模态数据集>

多模态 packing 技术可提升训练速度 100%+

4. 一键量化部署

# AWQ 4bit 量化
swift export \
--model Qwen/Qwen2.5-7B-Instruct \
--quant_bits 4 \
--quant_method awq
# vLLM 部署
swift deploy --model <量化模型> --infer_backend vllm

Web 界面:零代码训练

不想写命令行?没问题!

swift web-ui

启动后打开浏览器,全程可视化操作:

  • 选择模型和数据集
  • 配置训练参数
  • 实时查看训练日志
  • 一键导出模型

适用场景

场景 推荐方案
个人学习 LoRA + 单卡 3090
企业微调 QLoRA + DeepSpeed
大规模训练 Megatron 并行
快速部署 vLLM + AWQ 量化

资源链接

  • GitHub:github.com/modelscope/ms-swift
  • 文档:swift.readthedocs.io/zh-cn/latest
  • 论文:arxiv.org/abs/2408.05517

总结

MS-SWIFT 是目前最全面的开源大模型微调框架之一:

模型全 - 1000+ 模型支持
门槛低 - 一行命令 / Web 界面
显存省 - 7B 模型仅需 9GB
速度快 - Megatron 加速 10 倍
功能多 - 训练到部署全链路

如果你正在寻找一个大模型微调工具,MS-SWIFT 绝对值得一试!

AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!

在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

在这里插入图片描述

人才缺口巨大

人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!
图片

就业薪资超高

在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!

脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!

在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!

图片

总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!

但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:

❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;

❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;

❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。

他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

在这里插入图片描述

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐