| 编辑推荐: |
本文主要介绍了OpenClaw(Clawdbot)五层架构深度解析相关内容。希望对你的学习有帮助。
本文来自于微信公众号亨利笔记,由火龙果软件Alice编辑,推荐。 |
|
在开源社区运营了很多年,总结来说,有些项目是用来“观摩”的,而有些项目是用来“惊艳”的。
2026 年初,一个代号为“龙虾”的 AI 项目在 GitHub 上像病毒一样蔓延:在不到两个月的时间里,它狂揽了
10 多万颗星。它曾叫过 Clawdbot,也短暂用过 Moltbot,但现在它最广为人知的名字是
OpenClaw。
这不仅仅是一个简单的聊天机器人套件。它是一个本地部署的、能够接管你机器权限的“数字管家”。今天,我们将深度拆解
OpenClaw 的五层技术架构,看看它是如何将高层的大模型推理与低层的系统操作完美结合的。
一、 为什么 OpenClaw 会成为现象级项目?
之前大多数 AI 助手都被困在“沙盒”里:它们在浏览器标签页里生存,只能回答问题或总结文档,与你的实际数字生活完全隔离。
如果想让 AI 帮你整理上周修改过的所有 PDF 文件,再通过邮件发送给同事,传统的助手最多只能提供操作建议。而
OpenClaw 不同,它能直接执行 Shell 命令、访问文件系统、操作浏览器,并最终完成整个工作流程——全程无需人工干预。
OpenClaw 的核心逻辑是:将你的聊天工具( Telegram/WhatsApp )变成指挥部,将你的系统终端变成执行层。
这种“ 24/7 全天候 Jarvis ”的体验,正是开发者 Peter Steinberger
最初为自己构建的愿景。
说起 Peter Steinberger,是奥地利的连续创业者,毕业于维也纳科技大学计算机专业,之前创业项目
PSPDFKit 退出后实现财务自由。在 2025 年底他仅用 10 天完成了 OpenClaw 的核心开发,OpenClaw
迅速成为在开源界爆红的个人 AI 助手项目。
当然,由于该项目诞生于 Peter Steinberger 的“自用”需求,因此在安全等方面尚未精细打磨。如果要投入真实场景,其安全性与稳定性等非功能需求至关重要。但不可否认,OpenClaw
已成为一个崭新智能体方向的标杆,值得深入研究和借鉴。
二、 五层金字塔式架构:从入口到进化
OpenClaw 的设计遵循了一个“以网关为中心”的模式,清晰地将关注点分离为五个层级。
第一层:通道适配器(Channel Adapters)——万能收件箱
AI 必须要出现在用户所在的地方。OpenClaw 支持包括 Telegram、Discord、WhatsApp、Slack、iMessage
等在内的 12 个平台。通道适配器层主要负责两件事:
1.消息归一化:不同平台格式迥异(比如 Telegram 的贴纸、Discord 的嵌入链接、WhatsApp
的表情回应),适配器将它们统一转化为“标准信封”。
2.附件提取:将媒体、文档、语音消息转化为下游组件可处理的一致格式。
这种抽象层确保了你在 WhatsApp 上发起的任务,可以在切换到 Slack 后无缝衔接,上下文丝毫不丢。
第二层:网关服务器(Gateway Server)——空中交通管制塔
这是 OpenClaw 的控制平面,负责管理复杂的会话流:
- 会话路由(Session Router):决定哪个会话处理哪条消息。私聊可能共享主会话,而群聊则被分配到隔离的会话中。
- 车道队列(Lane Queue):这是一个并发控制层。当你同时在三个群里指挥 AI 时,它确保每个对话的状态独立维护,避免竞态条件。
网关通常作为一个守护进程运行,网关端口默认是 18789,同时支持 WebSocket (WS) 和
HTTP 协议,可统一连接各种客户端,包括命令行界面(CLI)、配套应用程序、WebChat UI
以及 iOS/Android 节点。
第三层:智能体运行器(Agent Runner)——大脑组装线
这是最能体现“精细化管理”的一层。在调用 LLM 之前,运行器会进行外科手术式的准备:
1.模型解析器:动态选择最适合当前任务的模型(如 Claude 或 GPT)。
2.系统提示词构建器:根据当前启用的“技能”(如浏览器自动化、文件访问等)动态组装提示词。这种按需加载的设计,避免了为不用的功能浪费宝贵的
Token 空间。
3.会话历史加载器:从本地存储中调取持续性的对话上下文。
4.上下文窗口卫士:这是个无名英雄,当对话历史逼近 Token 限制时,它会自动压缩历史记录,确保对话不中断。
在这里,token 的用量优化成为重要的考量,采用了 Skills 的架构,动态加载和技能相关的描述和细节。这些设计精准地划出了概念验证与成熟产品之间的界线。
准备好提示词之后,Agent Runner 会调用 LLM 大模型服务,返回的结果交由下一层来处理。OpenClaw
理论上支持任意模型,效果较好的模型包括国外的 Claude,ChatGPT,Gemini,以及国内的
Kimi K2.5, GLM-4.7, MiniMax M2.1,甚至本地模型 Ollama 和聚合服务
OpenRouter 都可以支持。
第四层:智能体处理循环(Agentic Loop)——自主能力的引擎
这是 OpenClaw 与传统聊天机器人的分水岭。每当 LLM 生成响应,系统都会问一个关键问题:“这包含工具调用吗?”
- 如果是:执行工具(如查找文件、运行代码),将输出反馈给 LLM,循环继续。
- 如果否:输出最终文本。
这种闭环让 AI 能够自主执行任务。比如让它 “找出本周修改过的所有 PDF 并发邮件总结”,它会自主运行
find 命令进行搜索,找到文件后再读取文件和总结内容,最后触发邮件工具。全程零人工干预。
上面的是典型的智能体处理逻辑,可以调用内置的 49 种技能,如系统自动化、第三方生态集成、通讯与社交,以及智能家居生活。此外,OpenClaw
还可以通过 MCP/Skills 方式外接其他技能,已知的技能超过100多种(理论上是无限多种)。
用户可以把技能注册到OpenClaw的工具注册表里面,就可以用OpenClaw来编排和执行了。甚至还可以通过一个称为“skill-creator”的工具,在运行过程中自发生成新技能。
你 get 到了吗?OpenClaw 最强大、最灵活也是最精妙之处就在这里了。当然,这种灵活性也成为了
OpenClaw 被诟病最多的安全隐患来源。
第五层:响应路径(Response Path)——极致的用户体验
上一层产生的文本,由本层负责发回给用户。为了降低感官延迟,OpenClaw 采用了流式处理。用户能看到文字像喷泉一样涌现,而不是死等三分钟。同时,响应会再次经过通道适配器,根据目标平台的特性进行格式化(如针对
Discord 渲染 Markdown,针对 Telegram 的字符长度限制进行分段等)。
三、 它是如何“记住”你的?
OpenClaw 的记忆系统并没有采用复杂的神经网络存储,而是选择了“解释性的简单”:
1.JSONL 日志:记录每一场会话的原始转录。
2.Markdown 存储:它在本地维护一个 MEMORY.md 或内存文件夹。
3.混合搜索:它结合了SQLite的向量搜索和 关键词匹配(SQLite的FTS5模块)。这意味着当你搜索“登录异常”时,它既能找到包含“login
errors”的语义相关文档,也能找到精确匹配的短语。
最妙的一点是:AI 会像人类写日记一样,在每次新对话开始前,自动为之前的对话撰写 Markdown
摘要。这种“自发性记忆”让系统更具可读性。
四、 “指尖”上的权力:它如何接管你的电脑?
OpenClaw 赋予了智能体极高的系统权限。它可以:
- 执行 Shell 命令:默认在 Docker 容器中运行,但也可以选择直接在宿主机或远程设备上运行。
- 语义化浏览器(Semantic Snapshots):这是它的技术护城河。它不使用截图来“看”网页,而是分析页面的
可访问性树(ARIA)。这让它看到的网页变成了:按钮 "登录" [ref=1],
文本框 "密码" [ref=2]。相比于 5MB 的截图,不到 50KB 的文本快得多,且
Token 成本极低。
五、 安全性:龙虾的“防弹壳”
权限越高,风险越大。为了防止 AI 被恶意诱导删库,OpenClaw 内置了一套类似于 Claude
Code 的安全机制:
- 预先批准清单:像 jq, grep, sort 这样的安全命令(不修改系统状态)默认放行。
- 恶意指令拦截:自动拦截复杂的 Subshell、重定向(如 cat file > /etc/hosts)以及带
rm -rf 的危险操作。
- 人工审批:关键指令会弹出“允许一次/始终允许/拒绝”的提示。
六、Clawdbot的核心优势
Clawdbot 的核心优势在于解决传统AI痛点,具备四点硬实力:
- 本地优先+数据主权:本地部署确保数据存储于用户设备,隐私可控且访问高效,大幅提升文件查找、命令执行等操作速度。
- 创新记忆系统:采用三层人类可读记忆(会话成绩单、每日日志、持久记忆),支持回溯与持续学习,结合向量与关键词搜索,高效且不健忘。
- 自主+主动执行:除被动响应外,内置心跳引擎定期自主检查任务(如邮件、日程),并通过定时任务自动完成周期性工作,运行于隔离环境。
- 严苛安全机制:通过沙盒化运行、命令白名单、结构化拦截及人工审批四层防护,严格控制权限。语义化浏览器解析页面结构,兼顾效率与隐私。
七、 结语:个人化 AI 的胜利
和之前“智能体必须由大厂垂直集成”的观念不同,OpenClaw 提供了一种新的可能:本地化、用户可控并运行在个人硬件上的智能体。
它不仅仅是一个个人项目,它代表了 AI 时代的“权力归位”:你可以自由选择 LLM 服务商,自由定义技能模块,并让
AI 真正为你的本地数字环境服务——无需复杂架构和大厂垄断,坚持本地化、主动执行和高度个性化,有可能打造强大又易用的工具。
尽管作为一个诞生不足三月的新生项目,它仍有提升空间(如资源占用、安全细节),但正在不断进化中。对于普通人,它解放双手、节省时间;对于开发者,它是
AI 智能体开发的“教科书”,提供宝贵参考。相信随着开源社区的迭代,它将成为数字生活不可或缺的 AI
伙伴,或将成为行业主流方向之一。 |