人工智能治理科普 I OpenClaw架构介绍
信息来源: RUC人工智能治理研究院 发布日期:2026年4月4日
OpenClaw架构介绍
王文轩
中国人民大学信息学院讲师
人工智能治理研究院研究员
OpenClaw(龙虾)作为目前最炙手可热的开源AI项目,是奥地利程序员彼得·斯坦伯格开发的开源AI智能体,于2025年11月推出,作为GitHub史上增长最快的开源项目,获得了34万+star、单周200万次访问。推出至今在各大网络平台传播甚广,引起了全民讨论和实践“养虾”的热潮。
Github网站上OpenClaw项目仓库的star历史趋势图
网络上也不乏一些 OpenClaw 的案例分享,让人直观地看到AI在生活和工作中的实际作用。有人用它来实现每周购物全流程自动化,从挑选商品到预约配送,再到确认订单,整个过程都可以自动完成,省去了不少重复操作和等待时间,还有人把它用在信息整理上,比如快速把屏幕内容整理成文档,或者在多个Agent之间统一管理技能和指令,让复杂的工作流变得简单又高效。甚至在团队协作中,也有人把 OpenClaw 和语音工具结合,让语音备忘录自动发送,信息传递轻松又省心。
我们可以看到,OpenClaw 不只是个实验工具,它正在接手许多重复、繁琐的任务,让我们的生活和工作能轻松一点,也更高效一点。
OpenClaw使用案例分享
那么,OpenClaw是什么?
OpenClaw系统整体概览图
OpenClaw是一个个人AI智能体助手,可以部署在你的指定设备上,如一台笔记本、一个云服务器亦或是Mac Mini。它不仅是一个聊天机器人,和我们平时用的Deepseek不同,它不再只停留在“问答”层面,是一个运行在你机器上的本地网关进程。这个网关连接到你已使用的消息平台,并将每条传入的消息通过一个由 LLM驱动的代理进行路由。该代理能对接第三方插件拓展能力、能记住跨会话的上下文、能执行系统级的高权限操作,访问电脑本地或互联网数据,独立完成自动化软件开发和运行、服务器管理这类复杂工作。
OpenClaw架构
OpenClaw整体架构图
OpenClaw采用以单个网关为中心的星型(hub-and-spoke)架构,核心是作为控制平面的网关和在Agent Runtime上运行的代理循环(agentic loop)。
1、控制界面和消息平台
OpenClaw支持多种外部平台的连接,如WhatsApp、Telegram和飞书等,当你发送通过这些消息平台发送信息给OpenClaw,首先会经过该消息平台的适配器(部分适配器是预装的,其他平台适配器可以通过插件的形式添加),适配器将平台的信息做规范化处理,包括身份验证、消息解析、访问控制以及发出规范化后的消息。
身份验证通过本地的凭证或者环境变量来确认消息发送者是谁,保证只有合法用户或系统才能访问服务;消息解析将不同平台的消息提取解析成内部统一可处理的格式;访问控制决定消息或用户是否有权限进行某个操作。例如添加白名单、设置群聊和私聊的处理策略;发消息则会把内部处理好的信息转换成目标平台能理解的消息格式并发送出去。此外,OpenClaw也支持通过网页页面访问http://127.0.0.1:18789或者通过命令行工具进行聊天、配置等。
2、网关:控制平面
OpenClaw中所有操作都通过一个长期运行的单个后台进程来进行,称为Gateway(网关)。网关处于LLM模型层之前,作为一个受控的编排层先行处理路由、访问控制、会话管理等,可以将其视为整个系统的神经系统。
OpenClaw支持多智能体路由
当网关接收到经过规范化的信息,它会通过访问控制检查进行路由,确定哪个会话应该处理该消息,并将其分派给相应的智能体。OpenClaw支持多智能体路由,使用者可以为不同消息平台或群聊配置不同的智能体。例如可以配置一个智能体负责使用更轻松的语气回复个人私信,另一个智能体来回复群组消息等。
3、代理运行
代理运行的核心是agentic loop(智能体循环)。一个智能体循环是一个智能体的完整运行过程:
由于OpenClaw是模型无关的,我们可以为想要使用的任何模型(Claude、GPT或通过 Ollama 运行的本地模型)提供自己的API密钥,调用模型的API即可调用模型的服务,各个模型也有自己的上下文窗口长度极限,同时,复杂冗余的上下文可能会导致模型的注意力涣散,不能很好地完成任务。因此,组装一个好的上下文给到模型至关重要。
OpenClaw中一次模型调用的上下文按注入顺序可分为以下四层:
组装好的上下文会传输给配置好的模型,模型即可开始推理。
智能体循环采用ReAct(Reasoning+Acting)的架构,这也是智能体获得操作权限的地方。当模型响应时,系统会监视并拦截工具调用。如果模型根据需求,需要使用工具来辅助任务,请求使用工具(例如打开浏览器搜索、使用命令行),运行时系统会执行该工具(根据会话的隔离策略可能在沙盒中执行)。每个工具的返回结果会被流式传输回模型生成过程中,模型将其整合并继续推理。对话完成后,系统会将更新后的会话状态持久化保存到磁盘。
4、记忆机制
由于大模型本身是无长期记忆的,只有上下文窗口长度的短期记忆,没有完善的记忆系统,模型记不住用户偏好、信息和一些常驻任务的要求,这样AI助理的实用性便大打折扣。因此,OpenClaw实现了相应的记忆机制。
每个对话以会话文件的形式存储。同时为了不超出模型的上下文长度限制,OpenClaw 会运行一个压缩过程来自动压缩,把较早的对话内容做摘要,在保留语义内容的同时减少token数量。压缩前,系统把重要信息提取到记忆文件里,防止关键细节丢失。同时,长期记忆以Markdown格式存储为记忆文件,存储智能体学到的关于用户使用习惯或者信息的长期事实。
在检索环节,OpenClaw采用了向量检索与关键词匹配相结合的混合检索方式,兼具两种方式的优势。例如检索“database deadlock”时,系统既能通过语义匹配找到描述“DB concurrency issues”的文档,也能精准定位包含该短语的内容。
基于上述设定,龙虾可以长期记忆用户使用记录,持续理解用户行为偏好,越用越懂用户,所以大家称之为“养龙虾”。
5、工具与能力
和传统大语言模型不同,作为智能体的OpenClaw可接管本地设备并实现各类操作。例如,OpenClaw获得系统操作权限,通过执行工具(exec tool)在设备上运行 Shell 命令,从而控制和使用本地设备。
OpenClaw解决不同类型任务的能力之所以这么强,离不开一个叫Skill 的概念。Skill 是一个能力抽象单元,像一个工作流程或者说是一份说明书,用来告诉 AI 应当如何去完成某项任务。Skill 最早是作为 coding agent 的一种配置机制出现的,其核心是一个 Markdown 文件加上一些脚本和参考数据,告诉 agent 遇到特定任务该怎么做。 2025 年下半年,Anthropic 将 Agent Skills 规范作为开放标准发布,Claude Code、Cursor、Gemini CLI 等主流 agent 相继支持同一套 SKILL.md 格式,Skill 从单一产品的功能变成了跨平台的能力描述协议。不过在那个阶段,Skill 的使用者和编写者基本局限在写代码的开发者给写代码的 agent。
而 OpenClaw 的出现改变了这件事的性质。和之前的 coding agent 不同,OpenClaw 是主动式的,它不等你打开 IDE,而是 24 小时挂在消息应用上,持续监控邮件、日历和聊天,主动替你做事。这意味着 Skill 的角色发生了跃迁:它不再只是开发者写代码的效率工具,而是开始承载普通人所有日常生活的自动化逻辑。ClawHub 上的 Skill 数量迅速突破一万,从报税到管理日程到替你回邮件,什么都有人写,为OpenClaw构建了极其强大的生态。
总结
总结一下,下图为OpenClaw系统收到单条信息后,信息流转的示意图。经过网关路由、LLM推理、持久化记忆写回等过程完成任务。
单个消息在 OpenClaw 中流转的全流程示
当 OpenClaw 系统收到一条 WhatsApp 消息时,信息会经过一系列处理步骤,最终完成智能回复。首先,系统会通过渠道适配器对消息进行规范化,然后由网关将消息路由到正确的代理和会话中。接着,消息会被命令队列按顺序处理,每次处理一个会话。
在处理过程中,系统会进行上下文组装,将基础提示词、技能列表、历史记录等信息整合起来,形成完整的上下文信息。随后,由大语言模型(LLM,如GPT或本地模型)进行推理,根据消息内容判断响应类型:
文本回复:直接生成文本内容,并发送回用户,同时将内容写入系统的内部记忆(MEMORY.md,每日日志)以备未来使用。
工具调用:执行所需工具操作,并将结果反馈回上下文。
需要技能:模型根据技能文档(SKILL.md)读取相关能力,完成后反馈到上下文。
整个流程实现了消息的智能处理、技能调用和上下文记忆写回,使系统能够在 WhatsApp 中自动、高效地完成任务和回复。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号