2026年5月20日,中科算网算泥社区发布了《2026 OpenClaw类自主智能体发展白皮书》,给这个领域划了一条清晰的线。白皮书提出了一个简单但有效的分级框架:OpenClaw类智能体的自主程度从L0到L4,分别对应"只会聊天"到"自我进化"的五种能力层级。
这个分级框架的价值不在于定义,而在于提供了一个衡量标准——你现在的Agent到底走到了哪一级。
L0是纯对话。ChatGPT的默认形态就是L0——输入文本,输出文本,无法触碰外部世界。L1加了工具调用,用户发指令,Agent执行单次操作返回结果。早期的GitHub Copilot就是L1。
L2是短时任务调度。用户说"帮我整理今天的邮件",Agent分解为多个步骤在几分钟内完成。L3则是白皮书里OpenClaw当前所处的级别——长时任务加心跳加定时执行加自行重试。Agent可以在用户睡觉时工作。
L3的关键机制是Cron和Heartbeat。 用户可以设定每天早八点生成新闻摘要,Agent到时间自动触发。Heartbeat则是持续的检测循环,定期检查新消息、待处理任务或环境变化。
腾讯新闻转载的白皮书内容给出了L3的真实案例。猎豹移动CEO傅盛用8个OpenClaw Agent实现了24/7无人值守的内容运营,Agent自动选题、撰写、配图、定时发布,后台监控阅读量和评论数据并自主调整策略。一家中小企业用OpenClaw自动处理客户邮件,接收邮件后分类、查询CRM、生成回复草案、自动发送或提交人工审核,整个流程无需人工干预,只设了一个"金额超过阈值则人工审批"的安全规则。
白皮书把L4定义为多Agent团队加自我改写技能配置加资源自治。多个Agent协作完成复杂任务,Agent能够根据经验自主修改自己的技能、配置甚至代码。
2026年Q2,L4仍处于早期探索阶段。 白皮书提到的最接近L4的项目是Hermes Agent和Autoresearch。Hermes Agent的多层记忆加自进化技能机制让它能在完成任务后提炼经验、生成新技能、优化记忆结构。Autoresearch则是Karpathy的实验性自循环框架,能让Agent自主设计研究方案、执行实验、分析结果并迭代。
L4和L3的本质区别是:L3的Agent在预设规则内自主执行,L4的Agent能修改规则本身。这就带来了一个安全问题——如果一个Agent可以自己改自己的技能描述和系统提示词,你怎么保证它不会改出危险的东西?
白皮书把OpenClaw类系统的架构拆成两层——认知层(LLM)和Harness层(外骨骼)。
认知层是"大脑",可以是Claude、GPT、Gemini、DeepSeek、GLM、Kimi,也可以是本地Ollama跑的开源模型。 OpenClaw的设计哲学是模型无关(model-agnostic),Gateway负责模型路由,用户根据任务类型灵活切换。复杂推理用Claude Opus,代码生成用DeepSeek,轻量日常任务用本地模型省成本。
Harness层是"外骨骼",包含四个子系统:网关与通信(Gateway)、工具与技能(Skills/Tools/MCP Servers)、记忆与上下文管理(Memory Stack)、调度器(Agent Loop/Cron/Heartbeat)。
GitCode上的一篇文章给出了更细的分层——六层架构:交互层、任务编排层、记忆层、推理引擎层、技能执行层、操作系统抽象层。每一层都有明确的职责边界。
白皮书花了不少篇幅讲LLM作为推理引擎的典型错误模式,这三种情况在实际使用中反复出现。
第一种是工具滥用。 Meta Superintelligence Lab的一位研究员分享过案例:她的OpenClaw Agent在收到停止指令后仍然持续删除和归档了数百封个人邮件。这不是恶意,而是LLM在一个过度授权的环境中进入了"过度执行"状态。
第二种是错误坚持。 Shell命令执行中最常见——如果命令语法有误,Agent可能连续重试数十次而不去检查语法本身。它不会退一步重新评估策略。
第三种是上下文污染。 如果某一天的会话日志中记录了用户的一句玩笑话"帮我把所有邮件都删了",而这句话没有被正确标记为玩笑,Agent的长期记忆可能将其视为真实偏好,在未来某一天"忠实"地执行。
这些失败模式的共同根源是:LLM本身并不理解它所做事情的后果。 这就是为什么Harness层的存在如此关键——它的职责是在认知层和执行层之间建立安全缓冲和错误纠正机制。
白皮书给"OpenClaw类自主智能体"划了六条边界,缺一不可:
1. 以LLM为核心推理引擎
2. 具备清晰的Agent harness
3. 支持工具调用
4. 走local-first/self-hosted优先路线
5. 具备一定程度的自主性
6. 拥有Skill/Plugin/Extension等能力扩展机制
这六条里最有争议的是第四条——local-first。OpenClaw的会话日志以每日Markdown文件存在用户本地磁盘,模型调用可以选择本地LLM实现完全离线运行。对于金融、医疗、政府等受严格合规约束的行业,这可能是唯一可接受的AI Agent使用方式。
腾讯云开发者社区的一篇文章做了一个对比: OpenClaw、LangChain和AutoGPT并非同一层级的产品。OpenClaw是平台层的运行时与调度引擎,LangChain是开发层的AI应用开发框架,AutoGPT是应用层的开箱即用成品。安装时间上OpenClaw只要5分钟,LangChain要30分钟以上,AutoGPT要15分钟。学习曲线OpenClaw低、LangChain中、AutoGPT高。
在OpenClaw爆红之前,AI Agent领域没有一个通用的能力分级标准。各家产品各自宣称"自主""智能""自动化",但没有量化指标。白皮书提出的L0-L4框架至少提供了一个可比的语言。
对开发者来说,这个框架帮助定位自己的项目处于什么阶段。 如果你的Agent只能做L1级别的单次工具调用,那离L3的无人值守还有不小差距。对投资人来说,L3以上的项目才算真正具备商业化潜力。对企业用户来说,L3是底线——低于L3的Agent无法替代任何持续性工作。
白皮书还提到了一些代表性项目的位置:Nanobot/PicoClaw是轻量级实现,AutoResearchClaw聚焦科研流水线,DeerFlow 2.0是字节系的SuperAgent Harness,Claw Code是Claude Code源码泄露后的重构生态。
这些项目共享六个特征,但在不同层级上有不同侧重。 理解这一点,比单纯比较功能清单更有价值。
*请认真填写需求信息,我们会在24小时内与您取得联系。