您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
   
基于模型的数据治理与中台
11月11-12日 北京+线上
软件架构设计方法、案例与实践
11月13-14日 北京+线上
UML与面向对象分析设计
11月25-26日 北京+线上
     
   
 订阅
通向AGI之路:MoE架构、Agentic AI与下一代大模型的进化
 
作者:万维读者
  69   次浏览      4 次
 2025-9-22
 
编辑推荐:
本文系统性地探讨了MoE架构的效率突破、Agentic AI的自主能力演进以及下一代训练方法,揭示了从DeepSeek技术实践看大模型向AGI发展的技术路径与未来趋势, 希望对你的学习有帮助。
本文来自于AI开发者路线,由火龙果软件Alice编辑,推荐。

从DeepSeek技术交底看大模型未来

图片

一、MoE架构:万亿参数的效率革命

Mixture of Experts(MoE) 是当前突破千亿级参数瓶颈的核心架构。与传统Transformer不同,MoE将模型拆分为多个“专家子网络”,每个输入仅激活部分专家(如DeepSeek-V3采用稀疏激活),实现计算效率与模型容量的双重突破。 下图对比稠密模型和Moe模型差异, MoE将传统的前馈模块替换为多个专家层,每个专家层也是一个前馈模块。在推理时,一个路由器会选择一小部分专家进行激活。例如,DeepSeek V3有256个专家,但每次推理仅激活9个专家(1个共享专家和8个由路由器选择的专家)。

图片

DeepSeek-V3-0324(6850亿参数)的规模背后,MoE架构功不可没:

图片

MoE通过动态路由(如Top-k门控)选择专家,使模型在推理时仅消耗20%-30%的计算资源,却获得接近万亿参数的性能。

Llama 4采用了与DeepSeek V3类似的架构,但在某些细节上进行了优化,以提高模型的性能和效率。 Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。此外,Llama 4在每个Transformer块中交替使用MoE模块和密集模块。

图片

Qwen3的MoE模型采用了与DeepSeek V3类似的架构,但在某些细节上有所不同,例如不使用共享专家。这种设计使得模型在训练时能够学习更多知识,而在推理时保持高效。

图片

Kimi   K2采用了D eepSeek V3的架构,并进行了扩展。它使用了 Muon 优化器而非AdamW,这可能是其训练损失曲线表现优异的原因之一。此外,Kimi K2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。 这些设计使得Kimi 2在训练过程中表现优异,训练损失曲线平滑且下降迅速。这可能有助于该模型跃居上述基准测试的榜首。

图片

二、Agentic AI:从被动响应到主动协作

Agentic AI(智能体导向的AI)是下一代大模型的核心范式。它让模型具备目标分解、自我反思、工具调用能力,而不仅是“问答机器”。DeepSeek-R1的训练方法已初现Agentic雏形:

在优化训练阶段,研究人员引导模型生成带反思的详细答案(Self-Instruct),再通过人工修正提升逻辑严谨性: 这种“自我验证+人工对齐”正是Agentic AI的早期实践——让模型像人类一样拆解任务、验证假设、修正错误。

先回顾一下 人工反馈强化学习 (Reinforcement Learning from Human Feedback,简称 RLHF),顾名思义,就是先训练基础模型,在训练奖励模型,然后用奖励模型给基础模型打分做强化学习,通过强化学习算法微调 LLM ,保证输出内容的对齐和调优。缺点也显而易见,一个是奖励模型训练复杂,决定了模型好坏;一个是这里注重结果,没有注重过程对齐训练。

图片

关于强化学习对齐的方法,这里主要有三种:PPO、DPO、GRPO。 近端策略优化[PPO](Schulman et al., 2017)是一种广泛应用于大语言模型强化学习精调阶段的演员-评论家强化学习算法。 OpenAI 在大多数任务中使用的强化学习算法都是近端策略优化算法(Proximal Policy Optimization, PPO)。近端策略优化可以根据奖励模型获得的反馈优化模型,通过不断的迭代,让模型探索和发现更符合人类偏好的回复策略。

图片

然后 为了克服  RLHF  在计算效率上的缺陷,斯坦福大学在  2023  年在其基础上,提出了一种新的算法 直接偏好优化( DPO)算法,成为中小模型的优选对齐方案。 PPO需同时训练策略、奖励、评论、参考4个模型,且需在线采样数据,计算资源消耗大。 DPO核心改进:跳过“奖励模型训练”步骤,直接用“人类偏好数据”优化LLM策略,仅需2个模型(策略模型+参考模型),无需在线采样。

图片

当然DPO也有一些缺点:样本利用率低:依赖离线标注数据,训练效率低,且易出现策略与数据不匹配问题。

组相对策略优化(Group Relative Policy Optimization, GRPO):是一种节省训练成本的RL框架,它避免了通常与policy model相同大小的critic model(value model),而是基于组得分估计基线。 GRPO 的改进
  • 组内奖励标准化:对每个问题生成多个输出(组),用组内奖励的均值和标准差进行归一化。
  • 优势计算简化:直接使用归一化后的奖励作为优势值,无需评论家模型。
  • KL 散度正则化:通过无偏估计直接约束策略与参考模型的差异,避免奖励计算复杂化。
图片

GRPO的核心是通过 组内相对奖励 优化策略(通过采样一组输出,计算这些输出的奖励,并根据奖励的相对值来更新模型参数。 对每个输入状态,采样一组动作(如多个回答),通过奖励函数评估后,计算组内相对优势。这已经有过程对齐的那味儿了。 前面介绍了这么多还都是局部优化,之前的文章介绍了,未来的Agentic AI是强调自主规划、反馈迭代的能力,这块怎么训练呢。

三、下一代训练方法:解决三大核心挑战

1. 预训练革新:质量 > 规模

DeepSeek强调数据治理的核心地位:

  • 过滤仇恨、暴力、侵权内容
  • 算法+人工降低统计偏见
  • 主动清除个人信息(即使偶然混入)

2. 优化训练:从 SFT 到Agentic微调

下一代训练将融合:

  • Self-Improvement:模型生成高质量指令数据(如R1-Zero)
  • 工具学习:调用API、搜索、代码解释器完成复杂任务
  • 多智能体辩论:多个Agent协作验证答案可靠性

3. 推理架构:Agentic化部署

模型服务不再仅是“文本生成器”,而是具备记忆、规划、工具使用能力的智能体:

Agentic AI将动态整合外部知识(RAG)、程序执行(Code Interpreter)和长期记忆(Vector DB),实现“思考-行动”闭环。

蚂蚁团队给出的答案不是一个新算法,而是一个 基础设施级别的解决方案 ——AWORLD框架。 你可以将 AWORLD 理解为一个为AgentAI量身打造的、高度优化的 分布式 计算 与训练编排系统 。它的核心贡献可以概括为以下三点:

  1. 大规模并行执行 : AWORLD 的核心设计思想是“分而治之”。它不再让一个Agent孤军奋战,而是利用Kubernetes(K8s)集群,同时启动成百上千个独立的、并行的环境。每个环境里都有一个Agent的“克隆”在尝试解决任务。这样一来,原来需要线性累加的尝试时间,现在被压缩到了接近单次尝试的时间。
  2. 解耦的系统架构 : AWORLD 将Agent训练的整个流程巧妙地解耦为两个主要部分:
    • •  推理/执行端 :负责Agent与环境的高并发交互,即大规模的“实践”(Rollout)。
    • •  训练端 :负责收集所有“实践”数据,进行分析和学习,即更新模型参数。 这种设计允许为不同的任务匹配最合适的硬件资源,例如,用GPU集群进行高效的模型推理和训练,用CPU集群来承载大量的环境实例,从而最大化资源利用率。
  3. 一套完整的“训练配方” :论文不仅提供了工具(AWORLD),更提供了一套可复现的、端到端的 Agentic AI 训练“配方”。这个配方结合了监督微调(SFT)和强化学习(RL),让模型能够平滑地从“模仿专家”过渡到“自我进化”。

图片

四、对抗幻觉:Agentic AI的全新解法

DeepSeek指出当前大模型存在幻觉、偏见、滥用三大风险。下一代训练将通过:

  • 红队测试( Red Teaming ):模拟攻击训练模型抗干扰能力
  • 可信验证链(Chain-of-Verification):强制模型分步验证输出
  • 安全对齐(Safety Alignment):构造安全数据注入价值观

Agentic框架中,模型需展示推理过程,人类可实时干预修正(如“暂停生成,这一步证据不足”)

未来展望:开源生态与AGI路径

DeepSeek的全模型开源(MIT协议) 为Agentic AI社区化奠定基础。MoE+Agentic架构将推动模型向:

  • 超级专家系统:医疗/法律等垂直领域MoE专家协作
  • 社会智能体(Social Agent):理解人类意图并主动服务
  • 可解释AI(XAI):全程可视化推理路径

“真正的AGI不是更大的参数,而是更自主的思考。”

——DeepSeek模型报告结语  

   
69   次浏览       4 次
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
基于模型的数据治理与中台 11-11[北京]
软件架构设计方法、案例实践 11-13[北京]
OCSMP 认证培训课程 11-18[北京]
UML与面向对象分析设计 11-25[北京]
SysML和EA系统设计与建模 11-19[北京]
车载系统功能开发方法与实践 10-25[北京]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow
某领先数字地图提供商 Python数据分析
中国移动 人工智能、机器学习和深度学习