下面把 KernelGen、FlagRelease、FlagPerf 三大工具整理成一页速览,并给出最快上手调用步骤(含命令/示例)


一、三大工具速览(核心能力+适用场景)

FlagOS(众智FlagOS)的“三大工具”指其 3个开源工具平台,常与“四大核心技术库”合称“4+3”架构。

1. KernelGen — 算子自动生成工具

  • 全球首个支持多芯片的Triton算子自动生成平台。
  • 一句话描述:用AI生成高性能算子,分钟级完成跨芯片适配
  • 能力:输入算子逻辑描述,自动生成Triton代码、验证正确性、评测性能;支持英伟达、华为、海光等多芯片。

2. FlagRelease — 大模型自动迁移发版平台

  • 一站式大模型跨芯片适配、优化与发布工具。
  • 一句话描述:一次模型开发,自动发布到所有主流AI芯片
  • 能力:自动完成环境诊断、算子替换、精度/性能调优、容器化发布;已适配DeepSeek、Qwen、混元等数十个模型。

3. FlagPerf(原名九鼎平台)— 多芯片评测工具

  • 面向异构算力的大模型性能与精度评测平台
  • 一句话描述:统一基准,公平对比不同芯片上的模型表现
  • 能力:提供标准化评测流程,覆盖推理/训练性能、显存占用、精度对齐等维度;支持18家厂商32款芯片的横向对比。

补充:四大核心技术库(“4+3”里的“4”)

  • FlagScale:异构并行训推框架
  • FlagGems:高性能通用算子库(全球最大Triton算子库)
  • FlagTree:统一AI编译器(Triton增强版)
  • FlagCX:跨芯片统一通信库

1)KernelGen|算子自动生成

  • 定位:AI 生成高性能算子,跨芯片自动适配
  • 一句话:写逻辑 → 自动生成 Triton 代码 → 多芯片编译+验证+测速
  • 适合:算子开发、新芯片适配、性能调优
  • 支持:英伟达、华为昇腾、海光、寒武纪等

2)FlagRelease|大模型自动迁移发版

  • 定位:一次开发,多芯片一键部署
  • 一句话:自动诊断环境 → 算子替换 → 精度/性能调优 → 容器化发布
  • 适合:模型落地、多芯片版本管理、快速上线
  • 支持:Qwen、DeepSeek、混元、MiniCPM 等 70+ 模型

3)FlagPerf|多芯片评测(原九鼎)

  • 定位:统一基准,公平对比各芯片训推性能
  • 一句话:一键跑标准任务 → 输出吞吐/时延/显存/精度报告 → 横向对比
  • 适合:芯片选型、性能对比、验收测试
  • 支持:18 家厂商、32 款芯片

二、快速调用方法(从安装到跑通)

🔧 前置:统一环境准备(Ubuntu 示例)

# 1. 基础依赖
sudo apt update && sudo apt install -y python3-pip python3-dev git cmake

# 2. 安装 FlagOS 核心(必装)
git clone https://github.com/flagos-ai/FlagGems
cd FlagGems && pip install -e .

git clone https://github.com/flagos-ai/vllm-plugin-FL
cd vllm-plugin-FL && pip install -e .

1)KernelGen 快速调用(2 种方式)

方式 A:网页版(最快,无需装环境)

  1. 打开:https://kernelgen.flagos.io/login
  2. 注册/登录,拿到 Bearer Token
  3. 输入算子逻辑(如“矩阵乘+bias+gelu”)
  4. 点生成 → 自动输出 Triton 代码+性能报告

方式 B:本地/AI Agent 调用(Claude Code 示例)

# 1. 安装 KernelGen Skill
npx skills add flagos-ai/skills --skill kernelgen-flagos --global

# 2. 在 Claude Code 直接用自然语言触发
# 对话输入:
# /kernelgen 生成一个支持昇腾/英伟达的 layer_norm 算子

2)FlagRelease 快速调用(3 步部署模型)

Qwen3-4B 寒武纪为例,其他芯片同理。

步骤 1:下载 FlagRelease 适配好的模型

pip install modelscope
modelscope download --model Qwen/Qwen3-4B --local_dir ./qwen3-4b

步骤 2:拉取官方镜像(含优化算子)

docker pull 120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0

docker run -d \
  --name flagos \
  --net=host --ipc=host \
  -v /home:/home \
  120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0

步骤 3:一键启动服务(OpenAI 兼容 API)

# 进入容器
docker exec -it flagos bash

# 启动推理服务
flagscale serve qwen3_4b --port 9010

# 调用(任意 OpenAI 客户端)
curl http://localhost:9010/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3_4b","messages":[{"role":"user","content":"你好"}]}}'

3)FlagPerf 快速调用(一键评测)

步骤 1:克隆 FlagPerf

git clone https://github.com/flagos-ai/FlagPerf
cd FlagPerf
pip install -r training/requirements.txt

步骤 2:一键启动评测(推理+训练)

# 推理评测(默认跑 5 个模型)
python base/run.py --mode inference --chip nvidia

# 训练评测
python training/run_benchmarks/run.py --chip ascend

# 输出结果:自动生成 report.html + 对比表格

三、组合使用建议(工作流)

  1. KernelGen:开发/优化关键算子 → 生成多芯片代码
  2. FlagRelease:用优化后的算子自动迁移模型 → 发布容器
  3. FlagPerf:在目标芯片上跑评测 → 验证性能/精度

要不要我给你一份“最小验证集”脚本包(含 KernelGen 示例算子、FlagRelease 一键部署脚本、FlagPerf 最小评测配置),你直接复制就能跑通全流程?

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐