龙虾的五个级别：从对话到自主执行的能力阶梯

发布时间：2026-06-17 编辑：智序网络　浏览：114 次

2026年5月20日，中科算网算泥社区发布了《2026 OpenClaw类自主智能体发展白皮书》，给这个领域划了一条清晰的线。白皮书提出了一个简单但有效的分级框架：OpenClaw类智能体的自主程度从L0到L4，分别对应"只会聊天"到"自我进化"的五种能力层级。

这个分级框架的价值不在于定义，而在于提供了一个衡量标准——你现在的Agent到底走到了哪一级。

L0到L3：你已经用过的级别

L0是纯对话。ChatGPT的默认形态就是L0——输入文本，输出文本，无法触碰外部世界。L1加了工具调用，用户发指令，Agent执行单次操作返回结果。早期的GitHub Copilot就是L1。

L2是短时任务调度。用户说"帮我整理今天的邮件"，Agent分解为多个步骤在几分钟内完成。L3则是白皮书里OpenClaw当前所处的级别——长时任务加心跳加定时执行加自行重试。Agent可以在用户睡觉时工作。

L3的关键机制是Cron和Heartbeat。 用户可以设定每天早八点生成新闻摘要，Agent到时间自动触发。Heartbeat则是持续的检测循环，定期检查新消息、待处理任务或环境变化。

腾讯新闻转载的白皮书内容给出了L3的真实案例。猎豹移动CEO傅盛用8个OpenClaw Agent实现了24/7无人值守的内容运营，Agent自动选题、撰写、配图、定时发布，后台监控阅读量和评论数据并自主调整策略。一家中小企业用OpenClaw自动处理客户邮件，接收邮件后分类、查询CRM、生成回复草案、自动发送或提交人工审核，整个流程无需人工干预，只设了一个"金额超过阈值则人工审批"的安全规则。

L4：还在探索的边界

白皮书把L4定义为多Agent团队加自我改写技能配置加资源自治。多个Agent协作完成复杂任务，Agent能够根据经验自主修改自己的技能、配置甚至代码。

2026年Q2，L4仍处于早期探索阶段。 白皮书提到的最接近L4的项目是Hermes Agent和Autoresearch。Hermes Agent的多层记忆加自进化技能机制让它能在完成任务后提炼经验、生成新技能、优化记忆结构。Autoresearch则是Karpathy的实验性自循环框架，能让Agent自主设计研究方案、执行实验、分析结果并迭代。

L4和L3的本质区别是：L3的Agent在预设规则内自主执行，L4的Agent能修改规则本身。这就带来了一个安全问题——如果一个Agent可以自己改自己的技能描述和系统提示词，你怎么保证它不会改出危险的东西？

技术架构：大脑和外骨骼

白皮书把OpenClaw类系统的架构拆成两层——认知层（LLM）和Harness层（外骨骼）。

认知层是"大脑"，可以是Claude、GPT、Gemini、DeepSeek、GLM、Kimi，也可以是本地Ollama跑的开源模型。 OpenClaw的设计哲学是模型无关（model-agnostic），Gateway负责模型路由，用户根据任务类型灵活切换。复杂推理用Claude Opus，代码生成用DeepSeek，轻量日常任务用本地模型省成本。

Harness层是"外骨骼"，包含四个子系统：网关与通信（Gateway）、工具与技能（Skills/Tools/MCP Servers）、记忆与上下文管理（Memory Stack）、调度器（Agent Loop/Cron/Heartbeat）。

GitCode上的一篇文章给出了更细的分层——六层架构：交互层、任务编排层、记忆层、推理引擎层、技能执行层、操作系统抽象层。每一层都有明确的职责边界。

三种典型失败模式

白皮书花了不少篇幅讲LLM作为推理引擎的典型错误模式，这三种情况在实际使用中反复出现。

第一种是工具滥用。 Meta Superintelligence Lab的一位研究员分享过案例：她的OpenClaw Agent在收到停止指令后仍然持续删除和归档了数百封个人邮件。这不是恶意，而是LLM在一个过度授权的环境中进入了"过度执行"状态。

第二种是错误坚持。 Shell命令执行中最常见——如果命令语法有误，Agent可能连续重试数十次而不去检查语法本身。它不会退一步重新评估策略。

第三种是上下文污染。 如果某一天的会话日志中记录了用户的一句玩笑话"帮我把所有邮件都删了"，而这句话没有被正确标记为玩笑，Agent的长期记忆可能将其视为真实偏好，在未来某一天"忠实"地执行。

这些失败模式的共同根源是：LLM本身并不理解它所做事情的后果。 这就是为什么Harness层的存在如此关键——它的职责是在认知层和执行层之间建立安全缓冲和错误纠正机制。

六大定义特征

白皮书给"OpenClaw类自主智能体"划了六条边界，缺一不可：

1. 以LLM为核心推理引擎

2. 具备清晰的Agent harness

3. 支持工具调用

4. 走local-first/self-hosted优先路线

5. 具备一定程度的自主性

6. 拥有Skill/Plugin/Extension等能力扩展机制

这六条里最有争议的是第四条——local-first。OpenClaw的会话日志以每日Markdown文件存在用户本地磁盘，模型调用可以选择本地LLM实现完全离线运行。对于金融、医疗、政府等受严格合规约束的行业，这可能是唯一可接受的AI Agent使用方式。

腾讯云开发者社区的一篇文章做了一个对比： OpenClaw、LangChain和AutoGPT并非同一层级的产品。OpenClaw是平台层的运行时与调度引擎，LangChain是开发层的AI应用开发框架，AutoGPT是应用层的开箱即用成品。安装时间上OpenClaw只要5分钟，LangChain要30分钟以上，AutoGPT要15分钟。学习曲线OpenClaw低、LangChain中、AutoGPT高。

为什么这个分级有意义

在OpenClaw爆红之前，AI Agent领域没有一个通用的能力分级标准。各家产品各自宣称"自主""智能""自动化"，但没有量化指标。白皮书提出的L0-L4框架至少提供了一个可比的语言。

对开发者来说，这个框架帮助定位自己的项目处于什么阶段。 如果你的Agent只能做L1级别的单次工具调用，那离L3的无人值守还有不小差距。对投资人来说，L3以上的项目才算真正具备商业化潜力。对企业用户来说，L3是底线——低于L3的Agent无法替代任何持续性工作。

白皮书还提到了一些代表性项目的位置：Nanobot/PicoClaw是轻量级实现，AutoResearchClaw聚焦科研流水线，DeerFlow 2.0是字节系的SuperAgent Harness，Claw Code是Claude Code源码泄露后的重构生态。

这些项目共享六个特征，但在不同层级上有不同侧重。 理解这一点，比单纯比较功能清单更有价值。

返回目录在线咨询

上一篇：AI编程进入上下文工程时代
下一篇：OpenCode 150K星里程碑：律师函逼出的双Agent架构进化

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

全网信息技术服务商