从生成算子到性能评测：FlagOS 三件套完整使用流程，KernelGen（算子自动生成工具，大语言模型）、FlagRelease、FlagPerf 三大工具

zhangfeng1133

153人浏览 · 2026-06-14 10:45:54

zhangfeng1133 · 2026-06-14 10:45:54 发布

下面把 KernelGen、FlagRelease、FlagPerf 三大工具整理成一页速览，并给出最快上手调用步骤（含命令/示例）。

一、三大工具速览（核心能力+适用场景）

FlagOS（众智FlagOS）的“三大工具”指其 3个开源工具平台，常与“四大核心技术库”合称“4+3”架构。

1. KernelGen — 算子自动生成工具

全球首个支持多芯片的Triton算子自动生成平台。
一句话描述：用AI生成高性能算子，分钟级完成跨芯片适配。
能力：输入算子逻辑描述，自动生成Triton代码、验证正确性、评测性能；支持英伟达、华为、海光等多芯片。

2. FlagRelease — 大模型自动迁移发版平台

一站式大模型跨芯片适配、优化与发布工具。
一句话描述：一次模型开发，自动发布到所有主流AI芯片。
能力：自动完成环境诊断、算子替换、精度/性能调优、容器化发布；已适配DeepSeek、Qwen、混元等数十个模型。

3. FlagPerf（原名九鼎平台）— 多芯片评测工具

面向异构算力的大模型性能与精度评测平台。
一句话描述：统一基准，公平对比不同芯片上的模型表现。
能力：提供标准化评测流程，覆盖推理/训练性能、显存占用、精度对齐等维度；支持18家厂商32款芯片的横向对比。

补充：四大核心技术库（“4+3”里的“4”）

FlagScale：异构并行训推框架
FlagGems：高性能通用算子库（全球最大Triton算子库）
FlagTree：统一AI编译器（Triton增强版）
FlagCX：跨芯片统一通信库

1）KernelGen｜算子自动生成

定位：AI 生成高性能算子，跨芯片自动适配
一句话：写逻辑 → 自动生成 Triton 代码 → 多芯片编译+验证+测速
适合：算子开发、新芯片适配、性能调优
支持：英伟达、华为昇腾、海光、寒武纪等

2）FlagRelease｜大模型自动迁移发版

定位：一次开发，多芯片一键部署
一句话：自动诊断环境 → 算子替换 → 精度/性能调优 → 容器化发布
适合：模型落地、多芯片版本管理、快速上线
支持：Qwen、DeepSeek、混元、MiniCPM 等 70+ 模型

3）FlagPerf｜多芯片评测（原九鼎）

定位：统一基准，公平对比各芯片训推性能
一句话：一键跑标准任务 → 输出吞吐/时延/显存/精度报告 → 横向对比
适合：芯片选型、性能对比、验收测试
支持：18 家厂商、32 款芯片

二、快速调用方法（从安装到跑通）

🔧 前置：统一环境准备（Ubuntu 示例）

# 1. 基础依赖
sudo apt update && sudo apt install -y python3-pip python3-dev git cmake

# 2. 安装 FlagOS 核心（必装）
git clone https://github.com/flagos-ai/FlagGems
cd FlagGems && pip install -e .

git clone https://github.com/flagos-ai/vllm-plugin-FL
cd vllm-plugin-FL && pip install -e .

1）KernelGen 快速调用（2 种方式）

方式 A：网页版（最快，无需装环境）

打开：https://kernelgen.flagos.io/login
注册/登录，拿到 Bearer Token
输入算子逻辑（如“矩阵乘+bias+gelu”）
点生成 → 自动输出 Triton 代码+性能报告

方式 B：本地/AI Agent 调用（Claude Code 示例）

# 1. 安装 KernelGen Skill
npx skills add flagos-ai/skills --skill kernelgen-flagos --global

# 2. 在 Claude Code 直接用自然语言触发
# 对话输入：
# /kernelgen 生成一个支持昇腾/英伟达的 layer_norm 算子

2）FlagRelease 快速调用（3 步部署模型）

以 Qwen3-4B 寒武纪为例，其他芯片同理。

步骤 1：下载 FlagRelease 适配好的模型

pip install modelscope
modelscope download --model Qwen/Qwen3-4B --local_dir ./qwen3-4b

步骤 2：拉取官方镜像（含优化算子）

docker pull 120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0

docker run -d \
  --name flagos \
  --net=host --ipc=host \
  -v /home:/home \
  120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0

步骤 3：一键启动服务（OpenAI 兼容 API）

# 进入容器
docker exec -it flagos bash

# 启动推理服务
flagscale serve qwen3_4b --port 9010

# 调用（任意 OpenAI 客户端）
curl http://localhost:9010/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3_4b","messages":[{"role":"user","content":"你好"}]}}'

3）FlagPerf 快速调用（一键评测）

步骤 1：克隆 FlagPerf

git clone https://github.com/flagos-ai/FlagPerf
cd FlagPerf
pip install -r training/requirements.txt

步骤 2：一键启动评测（推理+训练）

# 推理评测（默认跑 5 个模型）
python base/run.py --mode inference --chip nvidia

# 训练评测
python training/run_benchmarks/run.py --chip ascend

# 输出结果：自动生成 report.html + 对比表格

三、组合使用建议（工作流）

KernelGen：开发/优化关键算子 → 生成多芯片代码
FlagRelease：用优化后的算子自动迁移模型 → 发布容器
FlagPerf：在目标芯片上跑评测 → 验证性能/精度

要不要我给你一份“最小验证集”脚本包（含 KernelGen 示例算子、FlagRelease 一键部署脚本、FlagPerf 最小评测配置），你直接复制就能跑通全流程？

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

轻规划鸿蒙开发实战8：AI 防窥保护，多面孔敏感视线追踪与秒级防窥屏阻断

隐私安全是一切自我规划的前提。本文将深入讲解如何调用 HarmonyOS 原生 Device Security Kit 设备安全套件，借助端侧 NPU 神经网络进行非机主视线投射追踪，并实战实现当旁人偷窥屏幕时，秒级毛玻璃化遮蔽愿景信息的 AI 防窥保护功能。

人工智能6S服务平台

华为鸿蒙HarmonyOS 7深度解析：从操作系统到AgentOS的架构跃迁

鸿蒙从0到6600万台设备用了14个月，而Agent架构的落地才刚刚开始。作为开发者，你面对的不是一个简单的"适配新OS"的任务，而是一个交互范式转移的历史节点。你觉得在AgentOS时代，传统App会被完全取代，还是会以某种形式与Agent共存？你最看好哪个场景率先跑通Agent模式？HarmonyOS7, AI Agent, 华为HDC2026, 鸿蒙开发, AgentOS。