代理能力來自模型。一個智能體產品 = 模型 + 框架。
在開始寫任何程式碼之前,有一件事需要先釐清。
代理能力——感知、推理與行動的能力——來自模型訓練,而非外部程式碼編排。 但要打造一個可運作的智能體產品,兩者都不可或缺:模型與框架。模型是駕駛員,框架是載具。本倉庫教你如何建造載具。
代理能力的來源
每個智能體的核心都是一個神經網路——Transformer、RNN,或經由訓練的函式——透過數十億次梯度更新,在感知、推理與行動的序列中塑造而成。代理能力從來不是由外部程式碼賦予的,而是在訓練過程中學習到的。
人類就是最原始的證明。一個經過數百萬年演化壓力淬鍊的生物神經網路,透過感官感知世界,透過大腦推理,透過身體行動。當 DeepMind、OpenAI 或 Anthropic 提到「智能體」時,他們指的都是同一核心概念:一個透過訓練學會行動的模型,加上讓它在特定環境中運作的基礎架構。
歷史記錄明確無誤:
2013 年——DeepMind DQN 玩 Atari。 單一神經網路只接收原始像素與遊戲分數,便學會了 7 款 Atari 2600 遊戲——超越先前的演算法,並在 3 款遊戲中擊敗人類專家。到了 2015 年,擴展到 49 款遊戲達到專業測試員水準,發表於 《自然》。沒有遊戲特定規則。一個模型,從經驗中學習。
2019 年——OpenAI Five 征服 Dota 2。 五個神經網路在 10 個月內花了 相當於 45,000 年的 Dota 2 對戰經驗,隨後在現場比賽中以 2-0 擊敗 OG——TI8 世界冠軍。在公開競技場中,AI 在 42,729 場比賽中獲勝率達 99.4%。沒有腳本策略。模型透過自我對弈學會了團隊合作。
2019 年——DeepMind AlphaStar 精通星海爭霸 II。 AlphaStar 在封閉比賽中以 10-1 擊敗職業選手,隨後在歐洲伺服器達到了 宗師級別——在 90,000 名玩家中排名前 0.15%。這是一個資訊不完整的即時戰略遊戲,其組合動作空間遠超國際象棋或圍棋。
2019 年——騰訊絕悟稱霸王者榮耀。 騰訊 AI Lab 的「絕悟」系統 在世界冠軍盃半決賽中於完整 5v5 對戰中擊敗 KPL 職業選手。在 1v1 模式中,職業選手 在 15 場比賽中僅贏了 1 場,最長不超過 8 分鐘。訓練強度:一天相當於 440 個人類年。一個從頭透過自我對弈學會了整個遊戲的模型。
2024-2025 年——LLM 智能體重塑軟體工程。 Claude、GPT、Gemini——這些在整個人類程式碼與推理資料上訓練的大型語言模型——被部署為編碼智能體。它們閱讀程式碼庫、編寫實作、除錯失敗,並以團隊形式協作。其架構與先前的每一個智能體相同:一個經過訓練的模型,放入一個環境,賦予感知與行動的工具。
每一個里程碑都指向同一個事實:代理能力——感知、推理與行動的能力——是訓練出來的,不是寫程式寫出來的。 但每個智能體也需要一個運作環境:Atari 模擬器、Dota 2 客戶端、星海爭霸 II 引擎、IDE 與終端機。模型提供智慧,環境提供行動空間。兩者共同構成一個完整的智能體。
範圍
本倉庫是一個從 0 到 1 的框架工程學習專案:教你如何建造圍繞智能體模型的工作環境。為了保持學習路徑清晰,部分生產機制被刻意簡化或省略:
完整的事件/鉤子匯流行為,例如
PreToolUse、SessionStart/End與ConfigChange。教學程式碼僅在必要處使用最小生命週期事件。基於規則的權限治理與完整信任流程。
會話生命週期控制,如恢復/分支,以及更完整的工作樹生命週期處理。
完整的 MCP 執行時期細節,例如傳輸、OAuth、資源訂閱與輪詢。
本倉庫中的 JSONL 信箱協議是一個教學實作,並非暗示任何特定生產環境的內部實作。
漸進式課程
每個課程新增一個框架機制。每個機制都有一句口號。
s01 「一個循環 + Bash 就夠了」——一個工具 + 一個循環 = 一個智能體
s02 「多加一個工具,就是多加一個處理器」——循環保持不變;新工具註冊到分發映射表中
s03 「先設界線,再給自由」——檢查哪些可以執行、哪些必須停止、哪些需要批准
s04 「在循環周圍掛鉤子,永遠別改寫循環」——在不修改主循環的情況下添加擴展點
s05 「沒有計畫的智能體會漂移」——在開始前列出步驟;完成率翻倍
s06 「大任務拆成小任務,每個子任務都有乾淨的上下文」——子智能體負責次要工作,只帶回結果
s07 「按需載入知識,而非預先全載」——先列出技能,只在需要時展開
s08 「上下文總會填滿——要有騰出空間的方法」——多層壓縮策略能讓你有無限的對話
s09 「記住重要的,忘記不重要的」——三個子系統:選擇、提取、整合
s10 「提示詞在運行時組裝,而非寫死」——按區塊拼接,按需載入
s11 「錯誤不是終點,而是重試的起點」——出錯時重試、騰出空間或走另一條路
s12 「大目標拆成小任務,排序,持久化到磁碟」——一個基於檔案的任務圖,為多智能體協作奠定基礎
s13 「慢操作放背景,智能體繼續思考」——背景執行緒執行指令;完成時注入通知
s14 「按時觸發,無需人類啟動」——按時間自動觸發任務
s15 「一個智能體做不完?委派給隊友」——持久化隊友 + 非同步信箱
s16 「隊友之間需要共同的溝通規則」——使用固定的請回-回復格式進行協調
s17 「隊友查看任務板,自主認領工作」——沒有領導者一一指派;自我組織
s18 「各自在自己的目錄中工作,互不干擾」——任務擁有目標,工作樹擁有目錄,以 ID 綁定
s19 「能力不夠?透過 MCP 外掛更多」——將外部工具接入同一個工具池
s20 「多種機制,一個循環」——先前的所有機制回歸到一個完整的框架
學習路線
主線:行動 → 處理複雜工作 → 記憶與復原 → 執行長期任務 → 協作 → 擴展與組裝。