您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
   
基于AI的性能测试工程
3月9-10日 北京+线上
需求分析与管理
3月18-19日 北京+线上
嵌入式C高质量编程
3月25-26日 北京+线上
     
   
 订阅
现象级开源AI智能体:OpenClaw(Clawdbot)五层架构深度解析

 
作者:Henry
 
  38   次浏览      4 次
 2026-3-4
 
编辑推荐:
本文主要介绍了OpenClaw(Clawdbot)五层架构深度解析相关内容。希望对你的学习有帮助。
本文来自于微信公众号亨利笔记,由火龙果软件Alice编辑,推荐。

在开源社区运营了很多年,总结来说,有些项目是用来“观摩”的,而有些项目是用来“惊艳”的。

2026 年初,一个代号为“龙虾”的 AI 项目在 GitHub 上像病毒一样蔓延:在不到两个月的时间里,它狂揽了 10 多万颗星。它曾叫过 Clawdbot,也短暂用过 Moltbot,但现在它最广为人知的名字是 OpenClaw。

这不仅仅是一个简单的聊天机器人套件。它是一个本地部署的、能够接管你机器权限的“数字管家”。今天,我们将深度拆解 OpenClaw 的五层技术架构,看看它是如何将高层的大模型推理与低层的系统操作完美结合的。

一、 为什么 OpenClaw 会成为现象级项目?

之前大多数 AI 助手都被困在“沙盒”里:它们在浏览器标签页里生存,只能回答问题或总结文档,与你的实际数字生活完全隔离。

如果想让 AI 帮你整理上周修改过的所有 PDF 文件,再通过邮件发送给同事,传统的助手最多只能提供操作建议。而 OpenClaw 不同,它能直接执行 Shell 命令、访问文件系统、操作浏览器,并最终完成整个工作流程——全程无需人工干预。

OpenClaw 的核心逻辑是:将你的聊天工具( Telegram/WhatsApp )变成指挥部,将你的系统终端变成执行层。

这种“ 24/7 全天候 Jarvis ”的体验,正是开发者 Peter Steinberger 最初为自己构建的愿景。

说起 Peter Steinberger,是奥地利的连续创业者,毕业于维也纳科技大学计算机专业,之前创业项目 PSPDFKit 退出后实现财务自由。在 2025 年底他仅用 10 天完成了 OpenClaw 的核心开发,OpenClaw 迅速成为在开源界爆红的个人 AI 助手项目。

当然,由于该项目诞生于 Peter Steinberger 的“自用”需求,因此在安全等方面尚未精细打磨。如果要投入真实场景,其安全性与稳定性等非功能需求至关重要。但不可否认,OpenClaw 已成为一个崭新智能体方向的标杆,值得深入研究和借鉴。

二、 五层金字塔式架构:从入口到进化

OpenClaw 的设计遵循了一个“以网关为中心”的模式,清晰地将关注点分离为五个层级。

第一层:通道适配器(Channel Adapters)——万能收件箱

AI 必须要出现在用户所在的地方。OpenClaw 支持包括 Telegram、Discord、WhatsApp、Slack、iMessage 等在内的 12 个平台。通道适配器层主要负责两件事:

1.消息归一化:不同平台格式迥异(比如 Telegram 的贴纸、Discord 的嵌入链接、WhatsApp 的表情回应),适配器将它们统一转化为“标准信封”。

2.附件提取:将媒体、文档、语音消息转化为下游组件可处理的一致格式。

这种抽象层确保了你在 WhatsApp 上发起的任务,可以在切换到 Slack 后无缝衔接,上下文丝毫不丢。

第二层:网关服务器(Gateway Server)——空中交通管制塔

这是 OpenClaw 的控制平面,负责管理复杂的会话流:

  • 会话路由(Session Router):决定哪个会话处理哪条消息。私聊可能共享主会话,而群聊则被分配到隔离的会话中。

  • 车道队列(Lane Queue):这是一个并发控制层。当你同时在三个群里指挥 AI 时,它确保每个对话的状态独立维护,避免竞态条件。

网关通常作为一个守护进程运行,网关端口默认是 18789,同时支持 WebSocket (WS) 和 HTTP 协议,可统一连接各种客户端,包括命令行界面(CLI)、配套应用程序、WebChat UI 以及 iOS/Android 节点。

第三层:智能体运行器(Agent Runner)——大脑组装线

这是最能体现“精细化管理”的一层。在调用 LLM 之前,运行器会进行外科手术式的准备:

1.模型解析器:动态选择最适合当前任务的模型(如 Claude 或 GPT)。

2.系统提示词构建器:根据当前启用的“技能”(如浏览器自动化、文件访问等)动态组装提示词。这种按需加载的设计,避免了为不用的功能浪费宝贵的 Token 空间。

3.会话历史加载器:从本地存储中调取持续性的对话上下文。

4.上下文窗口卫士:这是个无名英雄,当对话历史逼近 Token 限制时,它会自动压缩历史记录,确保对话不中断。

在这里,token 的用量优化成为重要的考量,采用了 Skills 的架构,动态加载和技能相关的描述和细节。这些设计精准地划出了概念验证与成熟产品之间的界线。

准备好提示词之后,Agent Runner 会调用 LLM 大模型服务,返回的结果交由下一层来处理。OpenClaw 理论上支持任意模型,效果较好的模型包括国外的 Claude,ChatGPT,Gemini,以及国内的 Kimi K2.5, GLM-4.7, MiniMax M2.1,甚至本地模型 Ollama 和聚合服务 OpenRouter 都可以支持。

第四层:智能体处理循环(Agentic Loop)——自主能力的引擎

这是 OpenClaw 与传统聊天机器人的分水岭。每当 LLM 生成响应,系统都会问一个关键问题:“这包含工具调用吗?”

  • 如果是:执行工具(如查找文件、运行代码),将输出反馈给 LLM,循环继续。

  • 如果否:输出最终文本。

这种闭环让 AI 能够自主执行任务。比如让它 “找出本周修改过的所有 PDF 并发邮件总结”,它会自主运行 find 命令进行搜索,找到文件后再读取文件和总结内容,最后触发邮件工具。全程零人工干预。

上面的是典型的智能体处理逻辑,可以调用内置的 49 种技能,如系统自动化、第三方生态集成、通讯与社交,以及智能家居生活。此外,OpenClaw 还可以通过 MCP/Skills 方式外接其他技能,已知的技能超过100多种(理论上是无限多种)。

用户可以把技能注册到OpenClaw的工具注册表里面,就可以用OpenClaw来编排和执行了。甚至还可以通过一个称为“skill-creator”的工具,在运行过程中自发生成新技能。

你 get 到了吗?OpenClaw 最强大、最灵活也是最精妙之处就在这里了。当然,这种灵活性也成为了 OpenClaw 被诟病最多的安全隐患来源。

第五层:响应路径(Response Path)——极致的用户体验

上一层产生的文本,由本层负责发回给用户。为了降低感官延迟,OpenClaw 采用了流式处理。用户能看到文字像喷泉一样涌现,而不是死等三分钟。同时,响应会再次经过通道适配器,根据目标平台的特性进行格式化(如针对 Discord 渲染 Markdown,针对 Telegram 的字符长度限制进行分段等)。

三、 它是如何“记住”你的?

OpenClaw 的记忆系统并没有采用复杂的神经网络存储,而是选择了“解释性的简单”:

1.JSONL 日志:记录每一场会话的原始转录。

2.Markdown 存储:它在本地维护一个 MEMORY.md 或内存文件夹。

3.混合搜索:它结合了SQLite的向量搜索和 关键词匹配(SQLite的FTS5模块)。这意味着当你搜索“登录异常”时,它既能找到包含“login errors”的语义相关文档,也能找到精确匹配的短语。

最妙的一点是:AI 会像人类写日记一样,在每次新对话开始前,自动为之前的对话撰写 Markdown 摘要。这种“自发性记忆”让系统更具可读性。

四、 “指尖”上的权力:它如何接管你的电脑?

OpenClaw 赋予了智能体极高的系统权限。它可以:

  • 执行 Shell 命令:默认在 Docker 容器中运行,但也可以选择直接在宿主机或远程设备上运行。

  • 语义化浏览器(Semantic Snapshots):这是它的技术护城河。它不使用截图来“看”网页,而是分析页面的 可访问性树(ARIA)。这让它看到的网页变成了:按钮 "登录" [ref=1], 文本框 "密码" [ref=2]。相比于 5MB 的截图,不到 50KB 的文本快得多,且 Token 成本极低。

五、 安全性:龙虾的“防弹壳”

权限越高,风险越大。为了防止 AI 被恶意诱导删库,OpenClaw 内置了一套类似于 Claude Code 的安全机制:

  • 预先批准清单:像 jq, grep, sort 这样的安全命令(不修改系统状态)默认放行。

  • 恶意指令拦截:自动拦截复杂的 Subshell、重定向(如 cat file > /etc/hosts)以及带 rm -rf 的危险操作。

  • 人工审批:关键指令会弹出“允许一次/始终允许/拒绝”的提示。

六、Clawdbot的核心优势

Clawdbot 的核心优势在于解决传统AI痛点,具备四点硬实力:

  • 本地优先+数据主权:本地部署确保数据存储于用户设备,隐私可控且访问高效,大幅提升文件查找、命令执行等操作速度。

  • 创新记忆系统:采用三层人类可读记忆(会话成绩单、每日日志、持久记忆),支持回溯与持续学习,结合向量与关键词搜索,高效且不健忘。

  • 自主+主动执行:除被动响应外,内置心跳引擎定期自主检查任务(如邮件、日程),并通过定时任务自动完成周期性工作,运行于隔离环境。

  • 严苛安全机制:通过沙盒化运行、命令白名单、结构化拦截及人工审批四层防护,严格控制权限。语义化浏览器解析页面结构,兼顾效率与隐私。

七、 结语:个人化 AI 的胜利

和之前“智能体必须由大厂垂直集成”的观念不同,OpenClaw 提供了一种新的可能:本地化、用户可控并运行在个人硬件上的智能体。

它不仅仅是一个个人项目,它代表了 AI 时代的“权力归位”:你可以自由选择 LLM 服务商,自由定义技能模块,并让 AI 真正为你的本地数字环境服务——无需复杂架构和大厂垄断,坚持本地化、主动执行和高度个性化,有可能打造强大又易用的工具。

尽管作为一个诞生不足三月的新生项目,它仍有提升空间(如资源占用、安全细节),但正在不断进化中。对于普通人,它解放双手、节省时间;对于开发者,它是 AI 智能体开发的“教科书”,提供宝贵参考。相信随着开源社区的迭代,它将成为数字生活不可或缺的 AI 伙伴,或将成为行业主流方向之一。

   
38   次浏览       4 次
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
基于模型的数据治理 3-10[北京]
基于AI的性能测试工程 3-9[在线]
需求分析与管理 3-18[北京]
配置管理方法、实践、工具 3-11[北京]
嵌入式C高质量编程 3-25[北京]
嵌入式软件测试 3-27[上海]
GPU图像处理基础 4-22[北京]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow
某领先数字地图提供商 Python数据分析
中国移动 人工智能、机器学习和深度学习