迈向AGI的关键技术：智能体、多模态模型与大模型开发全解析！2025

AGI成为AI演进关键节点，2025年被视为"智能体元年"。智能体实现从被动响应到主动解决问题的跨越，AI硬件持续迭代升级。推理能力、强化学习、算力基建和开源生态是驱动AGI发展的关键因素。全球AI企业积极布局，智能体、多模态模型和世界模型成为未来发展方向。

功城师

1959人浏览 · 2025-12-14 09:00:00

功城师 · 2025-12-14 09:00:00 发布

简介

当前，人工智能正朝着AGI的方向迈进。伴随技术突破与产业应用的深度融合，人工智能进入全新发展阶段。 2025年被视为“智能体元年”，AI Agent已成为驱动产业变革的核心力量。

智能体通过自主任务规划、动态决策与闭环执行，实现从被动响应指令到主动解决复杂问题的跨越。

与此同时，各类AI硬件迎来新一轮迭代升级，从轻量化AI眼镜到便携AI录音卡片，硬件设备在便携性与场景适配性方面不断突破。

“多模态模型”进一步打破技术边界，实现语言理解、视觉识别、音频处理等核心能力的深度融合。

“世界模型 ”扮演更为重要的角色，基于内在模拟理解现实世界的物理与因果结构，通过预设未来场景指导决策。

报告从AGI特征出发，全面总结全球人工智能产业的主要参与者、典型产品和应用，对AGI发展的关键领域、核心技术进行分析解读，并呈现当前关注度较高的智能体、AI硬件及应用进展。最后，报告对AGI的未来发展方向进行展望。

1.1 通用人工智能成为AI演进路径的关键节点

1.2 何为通用人工智能（AGI）

1.3 通用人工智能何时到来

关于AGI落地时间，全球人工智能领域的业内代表纷纷做出预测。 xAI创始人Elon Musk较为乐观，他认为AGI已初具雏形，有望在2026年到来。 Google DeepMind联合创始人兼首席执行官Demis Hassabis与Meta首席AI科学家Yann LeCun均认为AGI会在2030到2035年到来。图灵奖得主Geoffrey Hinton则持相对保守的立场，预测AGI将在2030到2045年到来。

1.4 2025全球人工智能全景图谱

2025年全球人工智能全景图谱包含应用硬件层、模型层以及基础设施层。其中，应用硬件层广泛覆盖各细分领域，涉及智能体、智能助手、智能硬件、具身智能、 C端/B端各类应用；模型层包含多模态基础模型、图像模型、视频模型、语音模型、推理模型、开源模型；基础设施层涵盖AI芯片、AI服务器、AI计算集群、开发平台、数据服务。图谱中涉及各领域全球具有代表性的AI应用、AI硬件、AI模型以及典型企业，为读者提供更为详实的参考信息。

2025全球人工智能全景图谱概览

2025全球人工智能全景图谱—智能体(AI Agent)

2025全球人工智能全景图谱—智能体开发平台&智能助手

2025全球人工智能全景图谱—硬件&具身&AI搜索&AI办公

2025全球人工智能全景图谱—AI写作&图像&音视频&音乐

2025全球人工智能全景图谱—AI+营销&医疗&金融&教育

2025全球人工智能全景图谱—多模态模型

2025全球人工智能全景图谱—推理模型&开源模型

2025全球人工智能全景图谱—AI基础设施

1.5 全球人工智能产业发展路线图（2024-2025）

😝 一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

迈向AGI的关键领域

2.1 驱动AGI发展关键因素：推理+强化学习+算力基建+开源生态

通用人工智能的不断演进主要由四大因素驱动。一是模型推理能力的不断跃升。 DeepSeek相关模型在性能上达到全球开源模型的顶尖水平。二是强化学习的不断迭代。如GRPO等新型算法通过组内相对奖励机制，解决传统PPO算法对价值函数的依赖问题。三是算力基建的持续投入。美国“星际之门”计划未来四年投资5000亿美元构建AI基础设施，为大规模AI模型训练和推理提供算力基础。四是开源生态的广泛构建与繁荣共享。

Hugging Face汇聚超6000个可部署开源模型，推动前沿技术快速转化为生产力，构建全球协作的创新网络。

2.2 推理路径：通过各类算法机制提升模型推理能力

大模型基于一套系统化技术路径来提升其推理能力。以思维链（CoT）为基础实现分步推理，通过自我反馈和情境记忆形成动态调整机制，并借助自一致性校验确保逻辑一致性。在训练层面，采用监督微调（SFT）与基于人类反馈强化学习（ RLHF ）相结合的方式，借助优势估计和终端奖励完成策略更新。同时，引入对抗性奖励信号、KL 惩罚以及价值函数训练以实现策略优化的目标。

推理时间推理（Inference-time Reasoning）

2.2 推理路径：多种范式增强模型应对复杂任务的能力

大模型通过多种推理路径适应不同任务需求。基础范式包括直接输出（Direct）和思维链（CoT）推理。自一致性（Self-consistency）与多重思维链（Multiple CoT）通过生成多条推理路径并采用投票机制，为不确定性任务进行方案择优。面对需要多路径探索的复杂任务，思维树（ToT）引入树状结构，支持分支评估与回溯机制，实现不同路径之间的探索。最新提出的思维图（GoT）则突破树状结构的限制，利用图结构实现路径间的动态聚合与信息重组，为更复杂的非线性推理问题提供更优的解决思路。

大模型推理路径

2.3 混合专家架构（MoE）：推动推理效率与模型性能突破

MoE（Mixture of Experts）架构中，输入数据通过前馈神经网络（Feed-Forward Neural Network, FFNN ）与激活函数处理，再由门控机制为每个专家分配激活概率。在稠密MoE架构中，所有专家均被激活参与计算，最终输出为各专家结果的加权和；在稀疏MoE架构中，仅激活其中若干专家（如图中激活FFNN1），以提高推理效率并降低计算资源开销。该机制实现在保持模型性能的同时，优化推理效率，适用于大规模参数部署。近年来，大模型已引入MoE架构以提升参数利用率和训练扩展性。

2.4 模型蒸馏：压缩计算复杂度，实现模型高性能和轻量化部署

模型蒸馏是指大型复杂模型（教师模型）的知识迁移到小型高效模型（学生模型）的技术，其核心目标是在保持模型性能的同时，显著降低模型的计算复杂度和存储需求，使模型更适合在资源受限的环境中部署。教师模型规模庞大，性能较高，但在计算和存储资源上存在较大压力；学生模型结构较为简单，通过模仿教师模型输出的软标签（概率分布）学习其知识和表示能力，软标签包含类别间相似性和内在关系的更多信息，有助于学生模型捕捉潜在特征并提升泛化能力。在实际应用中， DeepSeek-R1对Qwen和Llama等开源模型进行蒸馏，得到更高效的小模型，显著降低推理成本。此外，诸如DistilBERT、TinyBERT以及MobileBERT模型也都采用蒸馏技术，用以在保持性能的同时提升效率，推动轻量化模型的发展和普及。

模型蒸馏的原理与机制

2.5 主流模型的后训练过程已普遍采用强化学习方法

当前，主流大模型利用强化学习技术进一步提效。强化学习作为机器学习领域的核心技术之一，由智能体、环境、状态、行动、奖励及策略六大核心部分组成。与监督学习和无监督学习不同，强化学习是指智能体通过执行动作来影响环境，并根据环境反馈的奖励来调整策略，以便在未来做出更好的决策。目前主流模型的后训练过程均已采用相关强化学习方法进行优化。

强化学习核心要素

主流模型后训练的强化学习方法

2.5 传统与简化强化学习成为大模型提效“双涡轮”

主流大模型在后训练阶段采用的强化学习方法主要包含两类。一类是传统强化学习方法如人类反馈强化学习（ RLHF ）和AI反馈强化学习（RLAIF）；另一类是简化强化学习方法如直接偏好优化（DPO）和奖励偏好优化（RPO）。强化学习在大模型训练中经历三阶段流程，即奖励模型训练、偏好微调和策略优化。借助上述方法，大模型可突破单一预设答案的局限，动态适配不同偏好，生成结构合理、契合上下文且更具创造性与高质量的内容，更加贴合用户期望。

2.6 海外科技巨头引领高性能AI芯片发展

近年来，AI芯片已成为驱动人工智能发展的核心引擎，尤其在大模型训练和推理中，算力、内存带宽和互联技术直接决定模型迭代更新速度。当前，国际主流芯片厂商正围绕高性能计算、低精度格式和系统级优化展开激烈竞争，推动AI芯片向更高性能演进。NVIDIA凭借其Blackwell架构与Rubin架构持续领跑，保持其在高端训练和推理芯片市场的领导地位； Google依托自研TPU深化软硬件垂直整合，强化其云计算和AI服务的底层能力；

AWS通过自研Trainium训练芯片与Inferentia推理芯片的协同部署，提供云端算力解决方案。

全球主流AI芯片示例

2.7 国内AI芯片架构持续创新，训练推理两线并进

当前，国内AI芯片正依托国产化战略快速崛起，以华为昇腾910C、昆仑芯P800、沐曦曦云C600等为代表，在推理和轻量化训练场景中率先实现规模化落地。与国外追求绝对算力峰值不同，国内企业更注重架构自主与性能优化，并通过软硬件垂直整合和性价比优势抢占市场。总体而言，国内AI芯片尽管受到外部环境制约，但目前已取得显著进展。长远来看，先进制程、软件生态、硬件稳定性以及基础架构原创性仍将是未来需要持续攻坚的重点领域。

国内主流AI芯片示例

2.8 海内外云厂商持续加大AI基建投资力度

近年来，国内外主要云厂商的资本开支呈现出持续攀升态势。放眼海外，美国头部云厂商投资支出持续增加，以AWS、Microsoft、Google、Meta为主的云厂商纷纷掀起投资浪潮，AWS、Microsoft、Google、Meta2025财年资本开支预计分别达到1050亿、 850亿、 750亿、 620亿美元；聚焦国内，AI领域快速发展持续刺激国内AI基建投资，国内头部云厂商投资持续加码，投资目标已从传统数据中心转向智算中心。阿里巴巴、腾讯、百度2024财年资本开支突破新高，分别达到848亿、 768亿、 81亿人民币，反映出国内AI基建资本开支进入上行周期。

2.9 美国科技巨头持续加码，算力投资稳固攀升

美国科技巨头积极推进智算中心建设，AI算力需求不断攀升。以OpenAI、 Google、 Microsoft和Meta等为主的头部云厂商在AI基建领域持续加大投资力度，刷新基建投资额新高。 OpenAI主导的“Stargate”项目累计投入已达1000亿美元，预计投资金额将达5000亿美元；Google上调年度资本支出至750亿美元；Meta计划向“Hyperion”集群投资100亿美元。以上数据反映出美国在模型训练与推理方面的需求持续高涨。总体来看，美国科技巨头通过大规模投资和技术创新，不断巩固其在全球人工智能领域的领先地位。此外，美国算力领域的投资参与主体日渐多元，成为助力AI基建落地的重要力量。

美国科技巨头智算中心建设情况

2.10 国内超节点方案推动AI计算集群性能实现新突破

超节点是一种通过单节点内增加芯片数量，具备超高互联带宽、纵向扩展与集成化等优势的方案，在性能、成本、组网、运维等方面表现突出。超节点能够提供超高互联带宽与超低通信时延，有效支撑并行计算任务，缩短模型训练周期，提升整体可靠性。华为推出的Atlas 900 A3 SuperPoD（昇腾384超节点），通过总线技术实现384个NPU之间大带宽低时延互联，优化资源调度以满足AI训练与推理需求；浪潮信息发布的元脑SD200，可实现单机内运行超万亿参数大模型，并支持领先大模型机内同时运行及多智能体实时协作与按需调用；昆仑芯发布的超节点方案通过硬件创新提升全互联通信带宽，支持IB/ROE跨域低延迟传输，助力万卡级智算集群建设。超节点方案正推动AI计算集群向更高效、可靠的方向发展。

2.11 开源生态加速AGI时代到来

近年来，开源生态成为推动AGI发展的核心引擎。中国AI企业密集开源高性能模型，如阿里通义Qwen3系列、 DeepSeek-R1等。通过开放模型架构与训练框架，企业可降低算力依赖成本；开源驱动的技术民主化进程可打破闭源垄断，构建差异化生态；开源社区汇聚全球开发者协作，以“生态飞轮” 效应加速技术迭代，使AGI产业真正实现普惠共享。

开源生态对于产业发展的重要意义

3.智能体技术及应用进展

3.1 智能体特征：自主感知、规划执行

智能体（AI Agent）是一种基于大模型的高自主性智能系统，可凭借强大的语言理解能力与内容生成能力实现对环境的实时感知，并通过自主规划与调用工具完成复杂目标。智能体具备记忆、自主规划、工具调用与自动执行复杂任务四大核心能力。相较于AI助理，智能体在工作目标导向、交互维度、任务处理范围、自主程度、记忆、工具使用等方面均实现突破，凭借其特有的自主感知与规划执行能力，实现从智能助理被动调用单一功能到智能体自主解决复杂任务场景的转变。

3.2 智能体技术架构：涵盖感知、认知与执行三大模块

智能体的技术架构主要由感知、认知与执行三大模块组成。其中，感知模块负责处理环境感知，接收用户输入、外部数据以及动态反馈等一系列信息并进行解析；认知模块分为情感、奖励、记忆、目标与世界模型五个部分，作为智能体的认知基础，与执行模块协同运转，使智能体能够完成“感知—规划—工具调用—行动—反思”的全链路自主任务流程，最后将任务结果重新输出到物理世界。

智能体技术架构

3.3 多智能体系统：实现任务的并行处理与信息整合

多智能体系统通过主导智能体协同子智能体叠加工具调用，实现任务的并行处理与信息整合。以Anthropic多智能体研究系统架构为例，以主导智能体为核心，依托搜索工具、模型调用协议工具（MCP）、记忆模块、搜索子智能体及任务完成模块协同完成研究工作。主导智能体可调用搜索子智能体执行多方向检索，并调度引证子智能体插入文献引用，以增强信息可信度。记忆模块在整个研究过程中持续存储并更新状态，保持上下文的连贯性与一致性。用户请求在系统内部分配，经由多个子智能体并行探索与引用增强后，生成最终报告并反馈给用户。

多智能体系统架构

3.4 通用智能体：应用场景泛化，需求精准适配

通用智能体已广泛覆盖生产生活的多个场景。既涵盖数据分析、教育、研究、编程、生产力等多元任务板块，提升日常办公效率；又渗透攻略计划制定、内容创作、生活助手等个性化场景，为用户提供精准决策建议，体现“全场景覆盖、全需求适配”的特征。

3.5 行业智能体：应用领域持续拓宽，场景创新不断深化

当前，行业智能体应用领域持续拓宽，场景创新不断深化。智能体凭借“环境感知—自主决策—动态执行 ”的核心能力，已在金融、医疗、工业、教育、政务、电信等领域得到广泛应用，显著提升各行业效率并创造新服务模式。在金融领域，智能体根据金融机构的独特需求和长尾业务进行深度定制，具有高度的针对性和专业性；在工业领域，智能体成为支持行业发展的“数字大脑”，推动新型工业化的核心引擎；在教育领域，智能体为师生教与学提供实时、个性化、启发式服务。

行业智能体典型应用场景

3.6 企业智能体：优化各部门工作流，促进智能化升级

企业智能体具备任务处理能力，作为具备自主决策能力的“数字员工 ”，为企业级用户提供多样化解决方案。

一方面，不同行业先后涌现出适配自身工作流的智能体解决方案。在制造业中，企业智能体助力优化生产流程；在互联网行业中，企业智能体可被用于前期产品研发并协助销售服务。另一方面，企业内部办公场景中，智能体可作为企业后台支持部门的智能助手，协助处理日常行政、人力资源、财务管理等工作，帮助企业降本增效。企业智能体展现出广泛应用价值，正成为推动企业数字化转型和效率提升的关键力量。

智能体在企业内部的应用示例

3.7 MCP协议：助力AI模型与不同数据源和工具实现无缝交互

MCP（Model Context Protocol）是由Anthropic提出的一套标准化交互协议，旨在创建一个通用标准，使AI应用程序的开发和集成变得更加简单，使得开发者能够以一致的方式将各种数据源、工具和功能链接到AI模型，为 Agent开发提供支持。作为重要交互协议，MCP使得AI模型和应用开发进一步解耦，显著降低Agent的开发门槛。 MCP Server标准化封装，本质上为模型及智能体提供更细粒度、轻量化的工具调用能力，降低智能体对复杂工具的调用门槛。

MCP协议主要特征

3.8 A2A协议：助力不同智能体实现横向协作

2025年4月，Google发布A2A（ Agent2Agent Protocol）开源框架协议，旨在促进不同智能体之间的横向协作。该协议可在无需框架或供应商的情况下实现智能体在不同生态系统间的协作，由此推动智能体在更广泛场景中的落地。A2A协议帮助智能体超越孤立的数据系统和应用程序从而完成协作，进一步提升智能体的自主性和生产力。此外，A2A协议支持音视频流等多种交互模态，既能高效处理即时任务又能支持深度研究。与MCP协议不同，A2A协议侧重解决大规模多Agent部署问题，是对纵向解决智能体工具调用问题的MCP协议的有效补充。

A2A与MCP协同工作示例

3.9 Anthropic：Claude Code变革应用开发范式

Claude Code是由Anthropic开发的全新编程智能体工具。旨在通过自然语言指令帮助开发者高效完成代码编写、调试和项目管理等任务，可被直接集成于开发者工作环境中。从系统架构来看，Claude Code主要由核心引擎、执行层和交互层构成。核心引擎充当“大脑”的作用，负责协调工作；交互层是用户与Claude Code的接触点；执行层负责执行环境交互、收集信息等任务。在功能上，Claude Code可实现代码解析、错误鉴别、代码重构等功能，能力突出。

3.10 明略科技：DeepMiner商业数据分析智能体为企业精准决策赋能

明略科技作为数据智能应用软件提供商，为企业用户提供以数据分析为核心的产品服务。以明略大模型（ DeepMiner-FA、 DeepMiner-Mano、 DeepMiner-Cito）为支撑，在营销与营运领域分别提供妙啊、 AdEff、爱投、秒针系统、金数据、微伴助手，以及明智会话、明奇科技、明胜品智在内的全栈智能化产品及解决方案。基于明略大模型构建的DeepMiner全球商业数据分析智能体，拥有多智能体协作、复杂任务模版化等能力，具备智能规划、数据连接、预置知识和报告生成等多种功能。明略科技相关产品协同发力，旨在推动全球企业加速智能化转型进程。

4.智能硬件及AI应用进展

4.1 智能硬件：AI眼镜

Meta、小米、夸克、雷鸟、Rokid、影目等推出多款AI眼镜，产品销量呈现爆发式增长。Meta发布的AI眼镜兼具时尚外观和实用功能，在全球范围引发广泛关注。在2025世界人工智能大会上，阿里夸克推出的AI眼镜具有多重优势：硬件层面，夸克AI眼镜进行系统重构，采用双芯双系统设计； AI能力层面，夸克AI眼镜实现从基础语音指令到自然对话系统的跨越；生态整合层面，夸克AI眼镜深度融合阿里及支付宝生态，为用户带来更智能、便捷的穿戴体验。阿里夸克依托在硬件领域的积累，基于通义千问模型能力，打造实用好用的AI眼镜。

4.2 智能硬件：AI手机

AI手机的应用场景不断拓展，智能化能力不断增强。国内外主流手机厂商不断创新，苹果、三星、小米、华为、OPPO、vivo等推出搭载各类AI功能的新款机型。相关AI能力涵盖从基础功能（如文案写作、图像生成）到进阶功能（如识图问答、自动导航）等方面。具体来看，苹果的Visual Intelligence通过拍照并结合AI模型提供信息反馈；小米的自动导航通过提取消息的地理位置并自动发送至地图实现导航。

😝 一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

4.3 智能硬件：AI PC

AI PC领域中，国内外厂商现已相继推出一系列AI PC产品。现有AI PC呈现内嵌智能体、端侧部署AI大模型与端云混合式AI部署方式三大典型特征。 AI PC通过内嵌智能体与端侧部署大模型，进一步提升用户在工作和学习场景中的智能体验。同时，端侧大模型+个人云的部署方案在保证AI工作的高性能、低成本与随时可用性的同时，保障用户的数据隐私。联想现已形成覆盖笔记本、台式机、工作站与服务器的全方位产品矩阵，不断丰富软件生态，展现AI PC在各类场景应用的广阔空间。

4.4 智能汽车：端到端自动驾驶技术体系

端到端自动驾驶为高级别自动驾驶发展提供全新的技术路径。基于统一的神经网络从传感器数据输入直接到控制指令输出的连续学习与决策过程。核心技术主要体现在数据采集标注、训练算法、模型设计训练、模型压缩等方面。端到端自动驾驶模型依赖数据闭环实现算法性能持续提升；训练算法旨在通过数据闭环建立原始传感器输入到驾驶规划控制指令的映射，提高自动驾驶系统性能和安全性；模型设计训练分为“分模块模型”和“单模型架构”两种；模型压缩主要包括模型剪枝、模型量化和编译优化，旨在降低网络计算需求，提升车载计算平台的运行速度。

4.4 智能汽车：端到端自动驾驶演进路径—VLA模型

视觉-语言-动作模型（VLA）由VLM模型演变而来，其结合视觉、语言和动作三种能力，旨在实现从感知输入直接映射到控制输出的完整闭环能力，不仅关注环境感知，也关注规划与控制问题｡Waymo发布的EMMA模型具备同时处理文本、图像、视频等多模态输入，将驾驶任务定义为视觉问答（VQA）问题，最终生成多种驾驶输出形式（如规划轨迹、感知对象、道路图元素等）。EMMA充分利用Google Gemini模型储备的世界知识更好理解驾驶过程中的动态变化，作为VLA模型在自动驾驶领域的初步实践。

4.5 Deep Research：从信息搜集到深度洞察的跃迁

Deep Research（深度研究）作为当前信息处理与知识发现领域的重要功能，核心价值在于突破传统信息检索的局限，实现从信息搜集到深度洞察的跃迁。深度研究由任务拆解、信息搜索、分析推理，交叉验证和结果输出五个核心步骤构成，可实现输出结果的专业严谨。该功能正逐步成为现代知识工作者（如研究人员、分析师、

决策者、产品开发者）不可或缺的智能伙伴，能够大幅提升信息处理效率与认知深度，成为释放人类专业潜能、驱动复杂问题解决与知识创新的关键应用。

4.6 AI编程：从辅助工具到智能体，重构软件开发范式

当前，AI编程正在深刻重构软件开发范式，其核心能力已突破传统辅助工具的边界，形成覆盖AI编程多环节的解决方案。从全球格局来看，AI编程已进入规模化应用阶段，国外以基础模型创新和自主智能体开发为主导，重视通用性与开发者体验；而国内重视工程化工具链整合，强调行业落地与本土化适配，形成差异化竞争格局。从编程环节来看，基于大规模预训练模型的代码生成系统能够准确理解开发者意图，完成从自然语言描述到可执行代码的转换，同时支持多编程语言和复杂算法实现，可针对特定代码库提供优化建议，实现代码补全、错误识别到代码优化的闭环。

国内外主流AI编程应用及功能分布

5.全球AI企业最新布局

5.1 NVIDIA：全球领先的人工智能基础设施提供商

NVIDIA发布的AI高性能芯片以及计算设备，作为推动全球人工智能发展的关键基础设施，持续发挥重要作用。

2022年以来，NVIDIA相继推出基于Hopper架构和Blackwell架构的高性能计算产品线涵盖H100 Tensor Core GPU、 Blackwell Ultra GPU等。GTC 2025大会提出的AI计算产品路线图，计划在2026年发布下一代AI芯片Rubin，Rubin提供50 PFLOPs密集FP4计算能力，而Rubin Ultra的密集FP4浮点运算性能更是提升至100PFLOPs，AI算力性能有大幅提升，持续推动超大规模计算以及AI模型训练和推理能力的提升。

5.1 NVIDIA：全球领先的人工智能基础设施提供商

CUDA（Compute Unified Device Architecture）作为NVIDIA于2006年推出的专有并行计算平台与编程接口（API），允许开发者利用NVIDIA GPU执行科学计算与高性能计算，目前CUDA支持超过900个库。 CUDA-X建立在CUDA之上，是一套由NVIDIA提供的GPU加速微服务、工具及库的集合，专门用于加速数据处理、人工智能与高性能计算（HPC）场景应用。 CUDA-X涵盖数学运算库、并行算法库、图像视频库、通信库、深度学习库等，拥有超过 400个加速组件，通过GPU带来计算性能提升。

5.1 NVIDIA：全球领先的人工智能基础设施提供商

NVIDIA Llama Nemotron模型、 NVIDIA NeMo和NVIDIA NIM为专业开发者和企业提供智能体构建解决方案。 Llama Nemotron推理模型基于Llama模型构建并提供AI推理功能，NVIDIA在后训练期间对该推理模型系列进行增强，以提升多步数学运算、编码、推理和复杂决策能力。NVIDIA NeMo可以借助一系列工具构建和维护智能体。微软将 Llama Nemotron 推理模型和 NIM 微服务集成到 Microsoft Azure AI Foundry，为客户提供增强服务的选项，如针对 Microsoft 365的Azure AI Agent Service。

5.1 NVIDIA：全球领先的人工智能基础设施提供商

NVIDIA提供完整方案助力智能驾驶和具身智能发展。汽车场景中，NVIDIA为汽车智能化提供三类计算系统：用于AI模型训练的NVIDIA DGX、用于测试驾驶和生成合成数据的系统Omniverse以及车载超级计算机DRIVE AGX。利用Omniverse和Cosmos创建的“AI数据工厂”，通过合成驾驶场景大幅扩展训练数据。NVIDIA将数百次的驾驶场景扩展为数十亿的有效里程，大幅增加实现安全和先进自动驾驶功能所需的数据集规模。机器人场景中， Isaac GR00T涵盖机器人基础模型、运动与数据合成系统、仿真框架等，帮助开发者从少量人类示范数据中产生大规模数据集，推动具身智能快速发展。

5.2 Google：“硬件—平台—模型—应用 ”全方位构建AI生态

Google的人工智能产品布局已形成四层协同发展的完整生态,包括硬件层、平台层、模型层以及应用层。 2025 年，Google持续推动四个层面的产品研发与更新，在各层面分别实现一系列重大创新。其中模型层面，Google 前后推出Gemini 2.0系列以及Gemini 2.5系列大语言模型，在多模态理解、推理能力上实现跨越式提升；应用层， Google积极响应AGI发展热潮，推出了Gemini CLI、Project Mariner等一系列高自主性的AI Agent产品。

5.2 Google：基于Gemini 2.5大模型底座，持续增强多模态能力

2025年6月17 日，Google正式发布Gemini 2.5 Pro、Gemini 2.5 Flash，并推出Gemini 2.5 Flash-Lite实验版本。Gemini2.5模型采用稀疏MoE（Mixture-of-Experts）架构，原生支持文本、视觉和音频输入的多模态处理。 2025年8月26 日，Google发布重磅文生图模型Gemini 2.5 Flash Image (Nano Banana)，在图像质量、编辑控制和应用场景上有大幅改进，不仅可以对人物和宠物进行精准编辑，保持特征一致，还能实现多图合成、多轮次修改与风格迁移等复杂操作，并融入现实世界知识。

5.3 OpenAI：从核心模型迭代到智能体演进，引领AI技术突破

OpenAI是全球领先的人工智能科技公司，以其在大模型领域的突破性进展而闻名。公司致力于开发和推广安全、有益的AI技术。目前，OpenAI已推出一系列创新产品，包括ChatGPT Agent、Codex、 GPT-4o、OpenAI o3、 o4-mini、GPT-5及Operator等，既实现多模态模型与推理模型的技术升级，又在智能体领域实现全新突破，组成多元的产品体系。 2025年5月，OpenAI斥资65亿美元收购前苹果首席设计官JonyIve的AI硬件初创公司io。

5.3 OpenAI：从核心模型迭代到智能体演进，引领AI技术突破

2025年7月，OpenAI发布通用智能体ChatGPT Agent，该产品将Operator的网站交互、Deep Research的信息整合，以及ChatGPT的智能推理与流畅对话的三项优势融汇一体。ChatGPT Agent聚焦迭代式、协作式工作流程，交互性和灵活性显著提升，实现智能体能力的关键升级。同年，OpenAI发布o系列模型的最新成果o3，该推理模型擅长多模态理解，能够组合使用ChatGPT中的所有工具并有效应对多面性问题，是ChatGPT向更加自主方向迈进的重要举措。

5.3 OpenAI：GPT-5实现多模型协同与编程能力突破

2025年8月，OpenAI发布最新一代多模态模型GPT-5，其中包括GPT-5、GPT-5 mini和GPT-5 Pro三个版本。GPT-5将非推理模型与推理模型融为一体，实现由单一模型向多模型协同方向演进。此外， GPT-5在编程与代码、数学与逻辑推理、多模态理解、健康咨询等方面均表现亮眼，实际问题解决能力突出。GPT-5的发布标志着大模型技术正从单纯追求“规模”，转向追求“效率与规模并存”的更成熟阶段。

5.4 Anthropic：混合推理与多模态模型的行业领军者

Anthropic成立于2021年，总部位于美国加州旧金山，是一家人工智能研发型企业。 Anthropic通过一套预定义的价值与行为准则，引导模型在生成内容时保持高一致性与可解释性，注重长上下文、强推理与低幻觉率的协同。旗下的Claude系列大模型，已构建起层次分明、功能完备的产品矩阵。从轻量级部署的Haiku，到性价比优选的Sonnet，再到旗舰级产品Opus，该系列已覆盖多样化的应用需求，在长文档深度分析，复杂推理与多模态场景中表现亮眼。

5.5 阿里云：从基础设施到模型的全栈AI布局

阿里云现已构建其AI基础设施与技术服务体系，形成全栈AI智能底座。其体系可划分为IaaS、PaaS以及MaaS三个层面。阿里云正以AI为中心，全方位重构IaaS，PaaS，其中IaaS层包括安全、计算、存储等一系列基础设施服务；PaaS层，阿里云提供数据库、容器等一系列平台服务；MaaS层，阿里云已推出多款Qwen系列开源、闭源基础大模型，同时，基于模型微调，阿里云加速其大模型向其他行业的渗透节奏，目前已在政务、电力、能源、医药等多个行业部署行业大模型，推动从研发到生产等一系列工作流程的效率优化，加速政务与一系列企业数字化转型进程。

5.5 阿里通义：“开源+闭源 ”大模型体系全面布局

阿里通义大模型秉持开源与闭源并进路线。开源端以Qwen系列覆盖多参数规模，性能领先且生态活跃，衍生模型超5万；闭源端主打Qwen-Max等旗舰模型，安全合规性强，深度赋能金融、医疗等行业，服务超9万家企业，实现技术普惠与商业落地的平衡。其中，Qwen3于2025年4月发布，是Qwen系列大型语言模型的最新成员，也是国内首个混合推理模型，将快思考与慢思考集成于一体，对于简单需求可低算力秒回答案，对复杂问题可多步骤深度思考，大大节省算力消耗。同时具备全系列、开源最强、混合推理等特性。

5.6 DeepSeek：MoE架构创新与推理模型的行业先锋

DeepSeek（深度求索）是一家成立于2023年的来自中国杭州的人工智能公司，其前身是国内量化投资巨头幻方量化的子公司。公司专注于开发低成本、高性能的AI模型，并在深度学习、强化学习等领域取得多项突破，特别是在混合专家架构（MoE）和多头潜在注意力机制（MLA）方面进行深入研究和创新。此外，DeepSeek坚持开源，公开模型权重和训练细节，吸引全球开发者和研究者的广泛参与。目前已发布V3和R1等多款性能突出的开源模型。

5.6 DeepSeek：模型能力持续迭代，应用部署加快落地

2025年8月21 日，DeepSeek-V3.1模型发布，增加混合推理架构、提高思考效率并强化智能体支持；同年5月， DeepSeek-R1模型完成小版本升级，持续强化模型思维深度与推理能力。在落地实践方面，目前DeepSeek已助力超60家央企推动数字化与智能化转型；在智能终端领域， DeepSeek模型已深度适配手机、 PC、家电、汽车等各类终端，不断提升产品智能化水平。

6.AGI未来发展路径探究

6.1 世界模型：从理解物理世界到预测未来变化

当前，世界模型成为推动人工智能加速迈向AGI的关键驱动力。世界模型不仅能够理解物理世界的现状，还能预测其未来潜在的一系列动态变化。世界模型的应用场景已覆盖具身智能、自动驾驶、游戏开发及场景生成等领域，展现出广阔的应用潜力。从研发情况来看，全球主要科技企业和研究机构已推出多个世界模型，如Google发布的Genie 3、Meta发布的V-JEPA 2、达摩院发布的WorldVLA，从架构创新到场景落地持续深化探索，推动人工智能发展迈向新阶段。

全球主流世界模型汇总

6.1 自动驾驶成为世界模型的重要落地场景

随着世界模型技术架构的不断完善，其在自动驾驶领域的应用价值也愈发凸显。世界模型通过感知、预测和规划等模块，帮助自动驾驶车辆理解和预测复杂的交通环境，从而做出可靠的决策。世界模型通过摄像头、雷达及高精地图等传感器接收实时环境数据，并借助感知模型对数据进行处理，生成潜在空间表示，为规划、预测和模拟模型提供基础，从而完成下一步驾驶的规划与预测等场景理解操作；同时，端到端模型同时处理感知数据，以视频生成的方式模拟未来可能的环境状态，以支持自动驾驶车辆的决策过程。

6.2 多模态模型：通过整合多源数据实现协同推理

多模态模型是一类能整合文本、图像、视频等多源数据的模型。其核心在于突破单模态局限，通过跨模态交互实现信息融合与协同推理。此类模型多数依托Transformer架构，通过线性探测、稀疏自编码器等方法解析模态间关联，主要包括对比性视觉语言模型、生成式视觉语言模型及文本到图像扩散模型三大类型。在应用层面，多模态模型覆盖图像生成、视觉问答、图像检索、模型编辑、可控生成等丰富场景，能在复杂任务中展现精准干预能力。

多模态模型主要架构

6.3 持续强化学习：加速实现动态环境中的知识迁移

持续强化学习（CRL）是强化学习与持续学习交叉的前沿领域，旨在使智能体在动态、非平稳环境中通过序列化任务学习，避免灾难性遗忘并实现知识迁移。该方法平衡稳定性、可塑性与可扩展性，有利于最终实现类人终身学习能力。CRL方法通常围绕知识存储与迁移机制展开，主要分为四类：策略导向、经验导向、动态导向、奖励导向。

6.4 非Transformer架构：突破路径依赖的模型发展之道

随着模型规模的不断扩大和应用范围的不断拓展，Transformer架构面临诸多挑战，而非Transformer架构突围正推动模型走出一条创新发展路径。目前，非Transformer架构以状态空间模型与线性架构、液态神经网络架构、类脑与仿生架构、混合架构为代表。基于不同类型涌现出一系列性能更好、解决能力更强的模型，尤其在并行计算、推理效率上表现突出。非Transformer架构呈现混合化创新趋势，新型RNN架构崭露头角，与Transformer架构改进路线一并推动人工智能发展。

非Transformer架构发展路径

6.5 Figure AI Helix：实时协作的“慢思考-快执行 ”具身智能架构

Helix是Figure AI提出的首个“双系统 ”视觉-语言-行动（Vision-Language-Action）模型，用于实现人形机器人上半身的高频灵巧控制。其由两个核心部分组成：系统2（System2）是一个基于70亿参数的预训练视觉-语言模型，对环境图像和自然语言指令进行场景理解与语义推理，并将关键信息压缩为一个连续的潜在向量；系统1 （System1）是一个约8000万参数的视觉-运动转换器模型，将来自系统2的潜在向量与机器人状态结合，输出包括手腕姿态、手指动作以及躯干与头部控制在内的连续上半身动作。这种解耦的架构使得系统能够在不同时间尺度上最优运行：系统2负责“慢思考”的高层目标推理，而系统1实现“快反应”的实时动作执行。

Figure AI Helix：双系统VLA架构

6.6 智源RoboBrain 2.0：四大核心能力支撑长时任务执行

RoboBrain 2.0是智源最新发布的具身大脑，多项关键能力较前代均有显著突破。其在长时任务规划中能够将复杂任务拆解为多个子任务，并通过闭环反馈与监控实时检查完成情况，必要时进行重新规划。在空间理解上，新增复杂空间关系和距离推理，支持点指令与框选指令，显著提升可操作区域识别和轨迹生成的准确度，整体性能提高超过17%。在时间理解上，通过轨迹预测增强动作执行的连续性与精确度。在场景记忆方面，能够对环境中物体的位置和属性进行构建与更新，为动态环境下的持续操作提供支持。同时，RoboBrain 2.0还具备多机器人、多环境协同规划能力，可以实现跨场景泛化与自主执行，为具身智能的发展奠定更加坚实的技术基础。

智源RoboBrain2.0架构与四大核心能力