现象级开源AI智能体：OpenClaw（Clawdbot）五层架构深度解析

作者：Henry

3094 次浏览

10 次

2026-3-4

编辑推荐:

本文主要介绍了OpenClaw（Clawdbot）五层架构深度解析相关内容。希望对你的学习有帮助。
本文来自于微信公众号亨利笔记，由火龙果软件Alice编辑，推荐。

在开源社区运营了很多年，总结来说，有些项目是用来“观摩”的，而有些项目是用来“惊艳”的。

2026 年初，一个代号为“龙虾”的 AI 项目在 GitHub 上像病毒一样蔓延：在不到两个月的时间里，它狂揽了 10 多万颗星。它曾叫过 Clawdbot，也短暂用过 Moltbot，但现在它最广为人知的名字是 OpenClaw。

这不仅仅是一个简单的聊天机器人套件。它是一个本地部署的、能够接管你机器权限的“数字管家”。今天，我们将深度拆解 OpenClaw 的五层技术架构，看看它是如何将高层的大模型推理与低层的系统操作完美结合的。

一、为什么 OpenClaw 会成为现象级项目？

之前大多数 AI 助手都被困在“沙盒”里：它们在浏览器标签页里生存，只能回答问题或总结文档，与你的实际数字生活完全隔离。

如果想让 AI 帮你整理上周修改过的所有 PDF 文件，再通过邮件发送给同事，传统的助手最多只能提供操作建议。而 OpenClaw 不同，它能直接执行 Shell 命令、访问文件系统、操作浏览器，并最终完成整个工作流程——全程无需人工干预。

OpenClaw 的核心逻辑是：将你的聊天工具（ Telegram/WhatsApp ）变成指挥部，将你的系统终端变成执行层。

这种“ 24/7 全天候 Jarvis ”的体验，正是开发者 Peter Steinberger 最初为自己构建的愿景。

说起 Peter Steinberger，是奥地利的连续创业者，毕业于维也纳科技大学计算机专业，之前创业项目 PSPDFKit 退出后实现财务自由。在 2025 年底他仅用 10 天完成了 OpenClaw 的核心开发，OpenClaw 迅速成为在开源界爆红的个人 AI 助手项目。

当然，由于该项目诞生于 Peter Steinberger 的“自用”需求，因此在安全等方面尚未精细打磨。如果要投入真实场景，其安全性与稳定性等非功能需求至关重要。但不可否认，OpenClaw 已成为一个崭新智能体方向的标杆，值得深入研究和借鉴。

二、五层金字塔式架构：从入口到进化

OpenClaw 的设计遵循了一个“以网关为中心”的模式，清晰地将关注点分离为五个层级。

第一层：通道适配器（Channel Adapters）——万能收件箱

AI 必须要出现在用户所在的地方。OpenClaw 支持包括 Telegram、Discord、WhatsApp、Slack、iMessage 等在内的 12 个平台。通道适配器层主要负责两件事：

1.消息归一化：不同平台格式迥异（比如 Telegram 的贴纸、Discord 的嵌入链接、WhatsApp 的表情回应），适配器将它们统一转化为“标准信封”。

2.附件提取：将媒体、文档、语音消息转化为下游组件可处理的一致格式。

这种抽象层确保了你在 WhatsApp 上发起的任务，可以在切换到 Slack 后无缝衔接，上下文丝毫不丢。

第二层：网关服务器（Gateway Server）——空中交通管制塔

这是 OpenClaw 的控制平面，负责管理复杂的会话流：

会话路由（Session Router）：决定哪个会话处理哪条消息。私聊可能共享主会话，而群聊则被分配到隔离的会话中。
车道队列（Lane Queue）：这是一个并发控制层。当你同时在三个群里指挥 AI 时，它确保每个对话的状态独立维护，避免竞态条件。

网关通常作为一个守护进程运行，网关端口默认是 18789，同时支持 WebSocket (WS) 和 HTTP 协议，可统一连接各种客户端，包括命令行界面（CLI）、配套应用程序、WebChat UI 以及 iOS/Android 节点。

第三层：智能体运行器（Agent Runner）——大脑组装线

这是最能体现“精细化管理”的一层。在调用 LLM 之前，运行器会进行外科手术式的准备：

1.模型解析器：动态选择最适合当前任务的模型（如 Claude 或 GPT）。

2.系统提示词构建器：根据当前启用的“技能”（如浏览器自动化、文件访问等）动态组装提示词。这种按需加载的设计，避免了为不用的功能浪费宝贵的 Token 空间。

3.会话历史加载器：从本地存储中调取持续性的对话上下文。

4.上下文窗口卫士：这是个无名英雄，当对话历史逼近 Token 限制时，它会自动压缩历史记录，确保对话不中断。

在这里，token 的用量优化成为重要的考量，采用了 Skills 的架构，动态加载和技能相关的描述和细节。这些设计精准地划出了概念验证与成熟产品之间的界线。

准备好提示词之后，Agent Runner 会调用 LLM 大模型服务，返回的结果交由下一层来处理。OpenClaw 理论上支持任意模型，效果较好的模型包括国外的 Claude，ChatGPT，Gemini，以及国内的 Kimi K2.5, GLM-4.7, MiniMax M2.1，甚至本地模型 Ollama 和聚合服务 OpenRouter 都可以支持。

第四层：智能体处理循环（Agentic Loop）——自主能力的引擎

这是 OpenClaw 与传统聊天机器人的分水岭。每当 LLM 生成响应，系统都会问一个关键问题：“这包含工具调用吗？”

如果是：执行工具（如查找文件、运行代码），将输出反馈给 LLM，循环继续。
如果否：输出最终文本。

这种闭环让 AI 能够自主执行任务。比如让它 “找出本周修改过的所有 PDF 并发邮件总结”，它会自主运行 find 命令进行搜索，找到文件后再读取文件和总结内容，最后触发邮件工具。全程零人工干预。

上面的是典型的智能体处理逻辑，可以调用内置的 49 种技能，如系统自动化、第三方生态集成、通讯与社交，以及智能家居生活。此外，OpenClaw 还可以通过 MCP/Skills 方式外接其他技能，已知的技能超过100多种（理论上是无限多种）。

用户可以把技能注册到OpenClaw的工具注册表里面，就可以用OpenClaw来编排和执行了。甚至还可以通过一个称为“skill-creator”的工具，在运行过程中自发生成新技能。

你 get 到了吗？OpenClaw 最强大、最灵活也是最精妙之处就在这里了。当然，这种灵活性也成为了 OpenClaw 被诟病最多的安全隐患来源。

第五层：响应路径（Response Path）——极致的用户体验

上一层产生的文本，由本层负责发回给用户。为了降低感官延迟，OpenClaw 采用了流式处理。用户能看到文字像喷泉一样涌现，而不是死等三分钟。同时，响应会再次经过通道适配器，根据目标平台的特性进行格式化（如针对 Discord 渲染 Markdown，针对 Telegram 的字符长度限制进行分段等）。

三、它是如何“记住”你的？

OpenClaw 的记忆系统并没有采用复杂的神经网络存储，而是选择了“解释性的简单”：

1.JSONL 日志：记录每一场会话的原始转录。

2.Markdown 存储：它在本地维护一个 MEMORY.md 或内存文件夹。

3.混合搜索：它结合了SQLite的向量搜索和关键词匹配（SQLite的FTS5模块）。这意味着当你搜索“登录异常”时，它既能找到包含“login errors”的语义相关文档，也能找到精确匹配的短语。

最妙的一点是：AI 会像人类写日记一样，在每次新对话开始前，自动为之前的对话撰写 Markdown 摘要。这种“自发性记忆”让系统更具可读性。

四、 “指尖”上的权力：它如何接管你的电脑？

OpenClaw 赋予了智能体极高的系统权限。它可以：

执行 Shell 命令：默认在 Docker 容器中运行，但也可以选择直接在宿主机或远程设备上运行。
语义化浏览器（Semantic Snapshots）：这是它的技术护城河。它不使用截图来“看”网页，而是分析页面的可访问性树（ARIA）。这让它看到的网页变成了：按钮 "登录" [ref=1], 文本框 "密码" [ref=2]。相比于 5MB 的截图，不到 50KB 的文本快得多，且 Token 成本极低。

五、安全性：龙虾的“防弹壳”

权限越高，风险越大。为了防止 AI 被恶意诱导删库，OpenClaw 内置了一套类似于 Claude Code 的安全机制：

预先批准清单：像 jq, grep, sort 这样的安全命令（不修改系统状态）默认放行。
恶意指令拦截：自动拦截复杂的 Subshell、重定向（如 cat file > /etc/hosts）以及带 rm -rf 的危险操作。
人工审批：关键指令会弹出“允许一次/始终允许/拒绝”的提示。

六、Clawdbot的核心优势

Clawdbot 的核心优势在于解决传统AI痛点，具备四点硬实力：

本地优先+数据主权：本地部署确保数据存储于用户设备，隐私可控且访问高效，大幅提升文件查找、命令执行等操作速度。
创新记忆系统：采用三层人类可读记忆（会话成绩单、每日日志、持久记忆），支持回溯与持续学习，结合向量与关键词搜索，高效且不健忘。
自主+主动执行：除被动响应外，内置心跳引擎定期自主检查任务（如邮件、日程），并通过定时任务自动完成周期性工作，运行于隔离环境。
严苛安全机制：通过沙盒化运行、命令白名单、结构化拦截及人工审批四层防护，严格控制权限。语义化浏览器解析页面结构，兼顾效率与隐私。

七、结语：个人化 AI 的胜利

和之前“智能体必须由大厂垂直集成”的观念不同，OpenClaw 提供了一种新的可能：本地化、用户可控并运行在个人硬件上的智能体。

它不仅仅是一个个人项目，它代表了 AI 时代的“权力归位”：你可以自由选择 LLM 服务商，自由定义技能模块，并让 AI 真正为你的本地数字环境服务——无需复杂架构和大厂垄断，坚持本地化、主动执行和高度个性化，有可能打造强大又易用的工具。

尽管作为一个诞生不足三月的新生项目，它仍有提升空间（如资源占用、安全细节），但正在不断进化中。对于普通人，它解放双手、节省时间；对于开发者，它是 AI 智能体开发的“教科书”，提供宝贵参考。相信随着开源社区的迭代，它将成为数字生活不可或缺的 AI 伙伴，或将成为行业主流方向之一。

3094 次浏览

10 次