評估驅動開發: 生成式 AI 軟體不確定性的解決方法

2024/9/11 在 Hello World Dev Conference 分享的演講投影片這裡下載 PDF (18.3mb)

2024/9/18 (補充) 在 AI 小聚 額外分享的 Google Colab 程式碼: 使用 Textgrad 進行 system prompt 的最佳化,只需要有 OpenAI API key 以及修改一下參數就可以跑了。

  • Textgrad 是由史丹佛大學提出的一個最佳化框架,採用文本梯度下降的迭代優化方式
  • 跑出來的結果是一個非常厲害的 zero-shot system prompt
  • 此 Colab 適合沒有標準答案的場景,評估的部分採用 LLM 自動化評估

最佳化過程說明

  1. 使用 o1-preview 合成訓練QA範例 (若你沒有 o1 API 權限,可以換成 gpt-4o)
  2. 使用 gpt-4o 進行 textgrad 最佳化,採用 LLM-as-a-judge 自動化評估
  3. 產生適合 gpt-4o-mini 執行的 system prompt

基本上就是用最貴最聰明的模型,來產生在特定場景下用便宜模型執行效果最好的 prompt。

成本: 在合成10個範例的情況下,此最佳化迭代大約要花5分鐘,耗費 USD 0.8 美金

歡迎訂閱 📬 愛好 AI Engineer 電子報 過往期數點這 📚

發佈留言

發表迴響