Anthropic 最近釋出了他們在 2025/5/22 開發者活動的完整影片,當時的重頭戲是 Claude 4 模型發布。這裡我整理其中兩場關於 prompt 教學的演講內容。這兩場演講從基礎 Prompt 到進階的 Agent prompting ,展現了 prompt engineering 的不同層次。
第一場: Prompting 101

這場用了一個實際的案例:汽車保險理賠的自動化處理。想像一下,保險公司每天要處理大量的車禍理賠,每個案件都有現場手工圖和制式車禍報告表單,AI 需要判斷「事故發生了什麼」以及「誰是過錯方」。
講者直接在 Anthropic Console 現場示範如何設計 prompt,展示了標準的 prompt 結構最佳實踐。
Prompt Structure 基礎 5 個結構元素

- 1-2 句話建立角色和高層級任務描述 – 簡潔地告訴 AI 它的身份和主要目標
- 動態/檢索內容 – 插入需要處理的動態資料,如使用者偏好、地點資訊等
- 詳細任務指令 – 具體說明要如何執行任務的步驟和規則
- 範例/n-shot(選擇性) – 提供輸入輸出的範例來引導模型
- 重複關鍵指令 – 對於特別長的 prompt,在最後重申最重要的指令
擴充到更細節的 10 點結構

當需要處理更複雜的任務時,可以將 prompt 結構擴充到 10 個元素:
- 任務(Task context) – 更詳細的角色設定和背景說明
- 語調(Tone context) – 明確設定回應的語氣、風格和個性
- 背景資料、文件和圖片 – 所有需要參考的靜態資料
- 詳細任務描述與規則 – 完整的執行步驟、判斷標準和處理規則
- 範例(Examples) – 多個不同情境的輸入輸出範例
- 對話歷史(Conversation history) – 如果有先前的對話記錄需要參考
- 立即任務描述或請求 – 當前這一輪具體要處理的任務
- 逐步思考提示 – 加入「Think step by step」或「Take a deep breath」等引導語
- 輸出格式要求(Output formatting) – 詳細指定回應的結構、格式和樣式
- 預填回應(Prefilled response) – 預先填入部分回應內容來引導模型 (編按: 這是 Claude API 才有的功能,可以預填 Assistant 回應。OpenAI API 沒有這功能)
這個擴充版本特別適合處理需要多重考量的複雜任務,每個元素都有其特定用途,可以根據實際需求選擇使用。
Extended Thinking 用途

講者特別提到 Extended Thinking 的兩個思考: 何時用? 有沒有缺點?
Extended Thinking 可以用來輔助你的 system prompt 開發。在開發初期使用這個功能,觀察模型的推理過程是怎麼想的,了解模型的思考方式有助於你優化 prompt。
不過 Extended Thinking 也有缺點:每次都重新發明輪子,因此花費 tokens 成本較高;另外因為溫度固定是 1 不能調整,所以比較不容易重現相同的結果。
第二場:Prompting for Agents

第二場演講則進入了完全不同的境界:Agent 系統的 prompting 設計。講者首先提供了一個實用的檢查清單,幫助判斷是否真的需要建構 Agent,或是用 workflow 就好。
這裡我就不展開什麼是 LLM-based Agent 了,沒有這個知識儲備的話,請看我之前的 Agent 分享。



接著才是重頭戲,如何設計給 Agent 的 System prompt:
Agent Prompting 的 7 個核心原則:

- 像你的 Agent 一樣思考
- 設身處地思考 Agent 在執行時的 context 是否足夠
- 給予合理的啟發式方法
- 灌輸給模型需要的概念和一般性原則,避免模型面對 edge case 時走極端
- 清楚表達何時結束工具呼叫、何時達成目標
- 工具選擇是關鍵
- 讓模型知道任務要用哪些工具,什麼時候什麼情境要用
- 引導思考過程
- 預設開啟 extended thinking 的確效果就很好,但若能把 prompt 寫好引導可以表現更好
- Claude 在呼叫工具之間也可以交錯思考
- 大多數改變都會有意想不到的副作用,要有心理準備
- Agent 更難預測,例如只給「持續搜尋直到找到正確答案」可能造成模型用光 context window
- 需要告訴模型找不到完美來源也沒關係,可以在呼叫 3 次後就停止
- 需要協助 Agent 管理 context window
- 這有很多策略,例如 Claude Code 約在 190k tokens 時會自動壓縮成摘要、寫入外部檔案、用 sub-agent 處理後再回傳重要內容
- 讓 Claude 做 Claude
- Claude 本身就擅長當 Agent,先用簡單 prompt 就好,不需要假設模型做不到
工具設計的要點

在工具設計方面,要使用簡單準確的工具名稱,讓工具能獨立區分。不要給 6 個類似的搜尋工具,讓模型無法區分何時用哪種,如果類似可以考慮合併工具。
工具描述要詳細且格式良好,包含工具會返回什麼、該如何使用等資訊。避免過度相似的工具名稱或描述。
執行單一動作的工具效果更好,參數最多只有一層巢狀物件(例如 3 個獨立工具比 1 個有多個動作參數的工具好)。當然,務必要測試工具,確保 Agent 能妥善使用它們。
評估的重要性與挑戰
評估 Agent 比評估一般模型困難,講者的實用建議是:
- 影響效果越大,需要的樣本越少,剛開始時只需要幾個測試案例,不需要很多 dataset 才能開始。如果少量 dataset 就有明顯的差異影響,就是有用的,系統的每個改變都會產生實質且明顯的影響。
- 使用真實任務來反映現實狀況進行測試,評估你的研究系統時要用真實使用者可能會用的任務,理想上要有明確的正確答案,且可以使用現有工具找到。
- 配合評分標準的 LLM 評審非常強大,現在的 LLM 已經強大到能成為優秀的輸出評審,只要給予與人類判斷一致的明確評分標準即可。
- 但沒有任何東西能完美取代人工評估,沒有什麼比實際測試和體感檢查系統更好,與真實使用者測試時,人類最能找出系統的粗糙邊緣。

Q&A
在問答環節中,關於 Agent 的 prompt 設計流程,講者建議先從簡單的 prompt 開始,發現邊緣案例後開始迭代,收集失敗或成功案例。至於 few-shot 範例在 agent 是否有用,答案是在先進模型 agent 環境中不太有用,特別是範例很類似很確切時,反而會過度限制模型。可以告訴模型如何使用它的思考,如果要給範例,不要太具限制性太規範。
總結: 比較一般 Prompting 和 Agent Prompting
以下是我個人整理這兩場演講的差異心得,第一場的內容想必大家也很熟悉了,prompting 結構在很多教學裡面都有類似的內容。但是關於 agent 的 system prompt 怎麼寫,特別是在最新的推理模型下,這種內容還是很少的,因此值得特別關注兩者差異,理解不同場景需要不同的設計哲學。
一般的 Prompt 遵循明確的層次結構,適合單次任務執行。但是給 Agent 用的 system prompt 則有不同。
Agent Prompting 的獨特之處
Agent 不需要制式複雜的結構,講者建議從簡單的 prompt 開始,例如「搜尋網路來回答問題」這樣簡潔的指令,讓 Claude 發揮其原生能力,然後逐步根據實際問題添加指引。
重點在於提供合理的啟發式規則,而非詳細的步驟說明。Agent 需要的是概念性指引,例如 Claude Code 有個「不可逆性」概念來避免無法復原的操作,而工具選擇原則來決定何時使用哪個工具、預算概念讓簡單查詢用 5 個工具調用以下而複雜的可能需要 10-15 個,以及明確的停止條件讓它知道找到答案後就可以停止。
Agent Prompting 特別注重思考過程的引導,包括計劃階段讓 Agent 先規劃查詢複雜度、需要多少工具調用和成功標準;交錯思考讓它在工具調用之間反思結果品質;以及動態調整根據返回結果決定下一步。
Agent 特別需要 context engineering 上下文管理,包括接近 token 限制時自動壓縮摘要、寫入檔案以擴展有效上下文,以及將部分任務委派給其他 Agent。
與一般 Prompt 不同,Agent 要少用 few-shot 範例。不要給太詳細的執行範例會限制模型創造力,思考鏈已經內建不需要明確要求,如果要給範例應該給概念性範例而非步驟性範例。
Agent Prompt 的建議結構範例
1. 簡單的任務描述
- "You are a research assistant that searches the web"
2. 核心概念和原則(非詳細步驟)
- 不可逆性原則
- 工具選擇準則
- 效率考量
3. 思考過程指引
- "Plan your search process first"
- "Reflect on the quality of results"
4. 邊界條件和限制
- 預算限制(工具呼叫次數)
- 停止條件
- 錯誤處理
5. 上下文管理策略(如需要)
- 何時壓縮記憶
- 如何使用外部儲存
關鍵差異
面向 | 一般 Prompt | Agent Prompt |
---|---|---|
結構 | 高度結構化、線性 | 彈性、概念導向 |
設計長度 | 可能很長且詳細 | 一開始簡短,逐步迭代增加 |
範例使用 | 大量 few-shot 範例 | 最少範例,避免過度限制 |
指令類型 | 步驟性指令 | 啟發式規則和原則 |
重點 | 單次正確執行 | 自主循環執行和適應 |
Agent Prompt 的核心理念是賦能而非限制,給予足夠的指引讓 Agent 理解任務和邊界,但保留其自主決策和創造性解決問題的空間。這就像教導新進員工的差異:一般 Prompt 像是給他一本詳細的 SOP 手冊,每個步驟都寫得清清楚楚;而 Agent Prompting 更像是傳授核心理念和判斷原則,讓他能自主應對各種狀況。