大模型微调框架：AI开发者的福音！支持1000+模型，轻松实现大模型微调部署

MS-SWIFT是阿里魔搭社区开源的大模型微调部署框架，支持1000+模型的一站式解决方案。该框架具备三大优势：覆盖600+文本模型和400+多模态模型；7B模型仅需9GB显存；提供命令行和Web界面简化操作。支持多种训练方式（预训练、强化学习等）和硬件平台（NVIDIA/华为昇腾等），并集成Megatron并行技术可提速10倍。特色功能包括多模态训练、一键量化部署和零代码Web界面，适用于个人学

我算是程序猿

98人浏览 · 2026-03-18 20:56:05

我算是程序猿 · 2026-03-18 20:56:05 发布

MS-SWIFT是一款由阿里魔搭社区开源的大模型微调部署框架，支持600+纯文本大模型和400+多模态大模型，具备显存要求低、上手门槛低三大核心优势。它内置了150+数据集和多种训练方式，如预训练、指令微调、偏好对齐等，并支持多种硬件平台。MS-SWIFT还集成了Megatron并行加速技术，可显著提升超大模型训练速度。此外，它还支持多模态训练和一键量化部署，并提供Web界面实现零代码操作。MS-SWIFT适用于个人学习、企业微调、大规模训练和快速部署等多种场景，是大模型微调工具的理想选择。

魔搭社区出品，AAAI 2025 收录，支持 1000+ 模型的一站式微调部署方案

什么是 MS-SWIFT？

MS-SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是阿里魔搭社区开源的大模型微调部署框架，让普通开发者也能轻松完成大模型的训练、推理、评测、量化和部署。

一句话总结：想微调大模型？用它就对了！

最近正利用MS-WIFT做微调实验；

为什么选择 MS-SWIFT？

三大核心优势

1️⃣ 模型覆盖全

600+ 纯文本大模型
400+ 多模态大模型
热门新模型 Day0 支持

支持 Qwen3.5、Qwen3、DeepSeek-R1、Llama4、GLM4.5、InternLM3 等主流模型，多模态支持 Qwen3-VL、InternVL3.5、MiniCPM-V 等。

2️⃣ 显存要求低

7B 模型微调仅需 9GB 显存
支持 QLoRA、LoRA 等轻量微调
RTX 3090 即可训练主流模型

3️⃣ 上手门槛低

一行命令启动训练
Web 界面零代码操作
内置 150+ 数据集开箱即用

核心功能速览

支持的训练方式

类型	方法
基础训练	预训练、指令微调（SFT）
偏好对齐	DPO、KTO、CPO、SimPO、ORPO
强化学习	GRPO、DAPO、PPO、Reinforce++
特殊任务	Embedding、Reranker、序列分类

支持的硬件

NVIDIA：A100/H100、RTX 系列、T4/V100
国产：华为昇腾 NPU
其他：Apple MPS、CPU

10 分钟快速体验

安装

pip install ms-swift -U

训练（以 Qwen3-4B 为例）

swift sft \
--model Qwen/Qwen3-4B-Instruct-2507 \
--dataset swift/self-cognition#500 \
--tuner_type lora \
--lora_rank 8 \
--output_dir output

推理

swift infer \
--adapters output/checkpoint-xxx \
--stream true

就这么简单！

亮点功能详解

1. GRPO 强化学习

GRPO 是 DeepSeek 提出的高效强化学习算法，MS-SWIFT 内置了完整的 GRPO 族算法：

GRPO - 基础版本
DAPO - 动态优势
GSPO - 组稀疏优化
Reinforce++ - 增强版

一行命令开启强化学习：

swift rlhf --rlhf_type grpo --use_vllm true

2. Megatron 并行加速

针对超大模型训练，MS-SWIFT 集成了 Megatron 并行技术：

并行方式	作用
张量并行（TP）	切分模型参数
流水线并行（PP）	切分模型层
序列并行（SP）	切分长序列
专家并行（EP）	MoE 模型加速

实测对比（Qwen3-30B MoE 模型）：

Megatron：9.6s/it
DeepSpeed ZeRO3：91.2s/it

提速近 10 倍！

3. 多模态训练

支持图像、视频、语音混合训练：

swift sft \
--model Qwen/Qwen2-VL-7B-Instruct \
--dataset <多模态数据集>

多模态 packing 技术可提升训练速度 100%+。

4. 一键量化部署

# AWQ 4bit 量化
swift export \
--model Qwen/Qwen2.5-7B-Instruct \
--quant_bits 4 \
--quant_method awq
# vLLM 部署
swift deploy --model <量化模型> --infer_backend vllm