自主能力来自模型。一个智能体产品 = 模型 + 框架。
在我们写任何代码之前,有一件事需要明确。
自主能力——感知、推理和行动的能力——来自模型训练,而不是外部代码编排。 但一个可用的智能体产品需要模型和框架两者。模型是驾驶员,框架是车身。这个仓库教你如何构建车身。
自主能力从何而来
每个智能体的核心是一个神经网络——一个Transformer、一个RNN、一个经过训练的函数——由对感知、推理和行动序列进行的数十亿次梯度更新塑造而成。自主能力从来不是由周围代码赋予的,而是在训练过程中学到的。
人类就是最初的证明。一个生物神经网络,经过数百万年的进化压力磨炼,通过感官感知世界,通过大脑推理,通过身体行动。当DeepMind、OpenAI或Anthropic说“智能体”时,他们指的是同样核心的东西:一个通过训练学会了行动的模型,加上使其能在特定环境中运行的框架。
历史记录毫不含糊:
2013年 —— DeepMind DQN 玩雅达利游戏。 一个单一的神经网络,只接收原始像素和游戏分数,学习了7个雅达利2600游戏——超越之前的算法,并在其中3个游戏中击败了人类专家。到2015年,规模扩大到49个游戏达到专业测试员水平,发表在《自然》杂志上。没有游戏特定规则。一个模型,从经验中学习。
2019年 —— OpenAI Five 征服 Dota 2。 五个神经网络在10个月内进行了相当于45,000年的Dota 2自我对战,然后在现场比赛中以2-0击败了OG——TI8世界冠军。在公开比赛中,AI在42,729场游戏中获胜99.4%。没有脚本策略。模型通过自我对弈学会了团队合作。
2019年 —— DeepMind AlphaStar 掌握星际争霸II。 AlphaStar在封闭比赛中以10-1击败职业选手,然后在欧洲服务器上达到宗师段位——在90,000名玩家中排名前0.15%。这是一个不完全信息、实时游戏,其组合动作空间远超国际象棋或围棋。
2019年 —— 腾讯绝悟称霸王者荣耀。 腾讯AI实验室的“绝悟”系统在世界冠军杯半决赛中以5v5击败了KPL职业选手。在1v1模式中,职业选手在15场比赛中仅赢了1场,最长坚持不到8分钟。训练强度:一天相当于440个人类年。一个通过自我对弈从零开始学习整个游戏的模型。
2024-2025年 —— LLM智能体重塑软件工程。 Claude、GPT、Gemini——在人类全部代码和推理上训练的大型语言模型——被部署为编码智能体。它们读取代码库、编写实现、调试失败,并作为团队协作。架构与之前的每个智能体相同:一个经过训练的模型,放置在一个环境中,赋予感知和行动的工具。
每一个里程碑都指向同一个事实:自主能力——感知、推理和行动的能力——是训练出来的,不是编码出来的。 但每个智能体也需要一个环境来运作:雅达利模拟器、Dota 2客户端、星际争霸II引擎、IDE和终端。模型提供智能,环境提供行动空间。它们共同构成一个完整的智能体。
范围
这个仓库是一个从零到一的框架工程学习项目:它教你如何构建智能体模型周围的工作环境。为了保持学习路径清晰,一些生产机制被有意简化或省略:
完整的事件/钩子总线行为,例如
PreToolUse、SessionStart/End和ConfigChange。教学代码在需要的地方使用了最少的生命周期事件。基于规则的权限治理和完全信任的工作流。
会话生命周期控制,如resume/fork,以及更完整的工作树生命周期处理。
完整的MCP运行时细节,如transport、OAuth、资源订阅和轮询。
这个仓库中的JSONL邮箱协议是一个教学实现,并非对任何特定生产内实现的声明。
渐进式课程
每节课增加一个框架机制。每个机制都有一个座右铭。
s01 “一个循环加Bash就足够了” —— 一个工具 + 一个循环 = 一个智能体
s02 “添加一个工具就是添加一个处理器” —— 循环保持不变;新工具注册到调度映射中
s03 “先设定边界,再授予自由” —— 检查哪些可以运行,哪些必须停止,哪些需要批准
s04 “在循环周围挂载钩子,永远不重写循环” —— 在不改变主循环的情况下添加扩展点
s05 “没有计划的智能体会随波逐流” —— 开始前列出步骤;完成率翻倍
s06 “大任务拆分成小块,每个子任务获得干净的上下文” —— 子智能体做旁路工作,只带回结果
s07 “按需加载知识,而不是预先加载” —— 先列出技能,只在需要时展开
s08 “上下文总会填满——要有腾出空间的方法” —— 多层压缩策略为你赢得无限会话
s09 “记住重要的,忘记不重要的” —— 三个子系统:选择、提取、整理
s10 “提示在运行时组装,而非硬编码” —— 基于部分的拼接,按需加载
s11 “错误不是终点,而是重试的起点” —— 当失败时,重试、腾出空间或走另一条路
s12 “大目标分解为小任务,有序,持久化到磁盘” —— 一个文件支持的任务图,为多智能体协调奠定基础
s13 “慢操作放到后台,智能体继续思考” —— 后台线程运行命令;通知在完成时注入
s14 “按计划触发,无需人工启动” —— 按时间自动触发任务
s15 “一个智能体太大——委托给队友” —— 持久化队友 + 异步邮箱
s16 “队员需要共享的通信规则” —— 使用固定的请求-回复格式进行协调
s17 “队员查看看板,自己认领工作” —— 没有领导者逐一分配;自我组织
s18 “每个在自己的目录中工作,互不干扰” —— 任务拥有目标,工作树拥有目录,通过ID绑定
s19 “能力不够?通过MCP接入更多” —— 将外部工具连接到同一个工具池
s20 “多种机制,一个循环” —— 之前的所有机制回归到一个完整的框架
学习路径
主线:行动 → 处理复杂工作 → 记忆和恢复 → 运行长时间任务 → 协作 → 扩展与组装。