Learn Claude Code · 開源專案

代理能力來自模型。一個智能體產品 = 模型 + 框架。

在開始寫任何程式碼之前，有一件事需要先釐清。

代理能力——感知、推理與行動的能力——來自模型訓練，而非外部程式碼編排。 但要打造一個可運作的智能體產品，兩者都不可或缺：模型與框架。模型是駕駛員，框架是載具。本倉庫教你如何建造載具。

代理能力的來源

每個智能體的核心都是一個神經網路——Transformer、RNN，或經由訓練的函式——透過數十億次梯度更新，在感知、推理與行動的序列中塑造而成。代理能力從來不是由外部程式碼賦予的，而是在訓練過程中學習到的。

人類就是最原始的證明。一個經過數百萬年演化壓力淬鍊的生物神經網路，透過感官感知世界，透過大腦推理，透過身體行動。當 DeepMind、OpenAI 或 Anthropic 提到「智能體」時，他們指的都是同一核心概念：一個透過訓練學會行動的模型，加上讓它在特定環境中運作的基礎架構。

歷史記錄明確無誤：

2013 年——DeepMind DQN 玩 Atari。 單一神經網路只接收原始像素與遊戲分數，便學會了 7 款 Atari 2600 遊戲——超越先前的演算法，並在 3 款遊戲中擊敗人類專家。到了 2015 年，擴展到 49 款遊戲達到專業測試員水準，發表於 《自然》。沒有遊戲特定規則。一個模型，從經驗中學習。
2019 年——OpenAI Five 征服 Dota 2。 五個神經網路在 10 個月內花了相當於 45,000 年的 Dota 2 對戰經驗，隨後在現場比賽中以 2-0 擊敗 OG——TI8 世界冠軍。在公開競技場中，AI 在 42,729 場比賽中獲勝率達 99.4%。沒有腳本策略。模型透過自我對弈學會了團隊合作。
2019 年——DeepMind AlphaStar 精通星海爭霸 II。 AlphaStar 在封閉比賽中以 10-1 擊敗職業選手，隨後在歐洲伺服器達到了宗師級別——在 90,000 名玩家中排名前 0.15%。這是一個資訊不完整的即時戰略遊戲，其組合動作空間遠超國際象棋或圍棋。
2019 年——騰訊絕悟稱霸王者榮耀。 騰訊 AI Lab 的「絕悟」系統在世界冠軍盃半決賽中於完整 5v5 對戰中擊敗 KPL 職業選手。在 1v1 模式中，職業選手在 15 場比賽中僅贏了 1 場，最長不超過 8 分鐘。訓練強度：一天相當於 440 個人類年。一個從頭透過自我對弈學會了整個遊戲的模型。
2024-2025 年——LLM 智能體重塑軟體工程。 Claude、GPT、Gemini——這些在整個人類程式碼與推理資料上訓練的大型語言模型——被部署為編碼智能體。它們閱讀程式碼庫、編寫實作、除錯失敗，並以團隊形式協作。其架構與先前的每一個智能體相同：一個經過訓練的模型，放入一個環境，賦予感知與行動的工具。

每一個里程碑都指向同一個事實：代理能力——感知、推理與行動的能力——是訓練出來的，不是寫程式寫出來的。 但每個智能體也需要一個運作環境：Atari 模擬器、Dota 2 客戶端、星海爭霸 II 引擎、IDE 與終端機。模型提供智慧，環境提供行動空間。兩者共同構成一個完整的智能體。

範圍

本倉庫是一個從 0 到 1 的框架工程學習專案：教你如何建造圍繞智能體模型的工作環境。為了保持學習路徑清晰，部分生產機制被刻意簡化或省略：

完整的事件/鉤子匯流行為，例如 PreToolUse、 SessionStart/End 與 ConfigChange。教學程式碼僅在必要處使用最小生命週期事件。
基於規則的權限治理與完整信任流程。
會話生命週期控制，如恢復/分支，以及更完整的工作樹生命週期處理。
完整的 MCP 執行時期細節，例如傳輸、OAuth、資源訂閱與輪詢。

本倉庫中的 JSONL 信箱協議是一個教學實作，並非暗示任何特定生產環境的內部實作。

漸進式課程

每個課程新增一個框架機制。每個機制都有一句口號。

s01 「一個循環 + Bash 就夠了」——一個工具 + 一個循環 = 一個智能體
s02 「多加一個工具，就是多加一個處理器」——循環保持不變；新工具註冊到分發映射表中
s03 「先設界線，再給自由」——檢查哪些可以執行、哪些必須停止、哪些需要批准
s04 「在循環周圍掛鉤子，永遠別改寫循環」——在不修改主循環的情況下添加擴展點
s05 「沒有計畫的智能體會漂移」——在開始前列出步驟；完成率翻倍
s06 「大任務拆成小任務，每個子任務都有乾淨的上下文」——子智能體負責次要工作，只帶回結果
s07 「按需載入知識，而非預先全載」——先列出技能，只在需要時展開
s08 「上下文總會填滿——要有騰出空間的方法」——多層壓縮策略能讓你有無限的對話
s09 「記住重要的，忘記不重要的」——三個子系統：選擇、提取、整合
s10 「提示詞在運行時組裝，而非寫死」——按區塊拼接，按需載入
s11 「錯誤不是終點，而是重試的起點」——出錯時重試、騰出空間或走另一條路
s12 「大目標拆成小任務，排序，持久化到磁碟」——一個基於檔案的任務圖，為多智能體協作奠定基礎
s13 「慢操作放背景，智能體繼續思考」——背景執行緒執行指令；完成時注入通知
s14 「按時觸發，無需人類啟動」——按時間自動觸發任務
s15 「一個智能體做不完？委派給隊友」——持久化隊友 + 非同步信箱
s16 「隊友之間需要共同的溝通規則」——使用固定的請回-回復格式進行協調
s17 「隊友查看任務板，自主認領工作」——沒有領導者一一指派；自我組織
s18 「各自在自己的目錄中工作，互不干擾」——任務擁有目標，工作樹擁有目錄，以 ID 綁定
s19 「能力不夠？透過 MCP 外掛更多」——將外部工具接入同一個工具池
s20 「多種機制，一個循環」——先前的所有機制回歸到一個完整的框架

學習路線

主線：行動 → 處理複雜工作 → 記憶與復原 → 執行長期任務 → 協作 → 擴展與組裝。

代理能力來自模型。一個智能體產品 = 模型 + 框架。

代理能力的來源

範圍

漸進式課程

學習路線

分享