愛好 AI Engineer 電子報 🚀 新的軟體開發時代來臨 #13

Hello! 你好 👋

我是 ihower，這期開始有個新系列是 Google Colab 分享，我會製作既實用又帶有教學意義的小程式給大家。

🔝With AI, Anyone Can Be a Coder Now | Thomas Dohmke | TED

要如何理解生成式 AI 會如何影響軟體開發?

GitHub 是目前做 AI coding 最厲害的公司，不但有全世界最多的 source code 可以訓練，也有微軟爸爸的算力。
最近他們 CEO Thomas Dohmke 有場 TED 科普演講: 透過 AI 任何人都可以成為 Coder (15分鐘、有簡中字幕) 值得一看。

– 目前可用 Github Copilot 工具協助你完成程式碼，將造福更多人可以輕鬆開始寫程式
– 透過自然語言與程式碼互動，未來將有更多人可以是 Coder
– 目前 Github 上有 100M 開發者，預計到 2030 年成長十倍，也就是 1B 的開發者。全球人口 10% 不只會用電腦，還會寫程式!
– 最後還 demo 了最新預覽版功能 Github Workspace: 只要開票，Github 就可以幫你拆解成文字規格，經過你確認修改後，再幫你寫 code 產生 pull request，最後你再檢查程式碼合併進主程式
– 最後主持人提問一個關鍵問題: 預測未來是否還需要人類參與? 回答是: 專業軟體設計師不會消失，仍需要人類去理解要打造什麼東西，仍需要人類專業去維護較大的複雜軟體系統。

幾點自己的看法:

1. 整場 talk 只講 Copilot (AI協助人類寫code)，沒有提到 Autopilot (全自動開發軟體)，我覺得這才是現況實際可行的發展。講什麼 AI 會取代軟體工程師，專業不要學資訊工程了，這都只是引發 FOMO 焦慮沒啥幫助，就跟去猜明年後年就有 AGI 一樣。

2. 我認為生成式 AI 不但不會減少軟體工程師的需求，反而會增加。有個現象叫做 “Jevons paradox” (杰文斯悖論): 當某項資源的使用效率提高時，反而可能導致對該資源需求的增加，而不是減少。當人人都可以寫點程式的時候，各行各業就會開始自行做些自動化程式，這將會產生更多 IT 軟體需求。

例如最近 Muyueh Lee 就在幫助一般上班族「用 AI 寫程式，讓自己早下班」，AI 小聚跟年會也常有公司分享他們如何自己做自動化。這樣演進下去，當單兵不滿足於 “自動化程式”，想要做一個長期維運的複雜 “軟體系統” 時，就會需要專業軟體工程師的協助。

3. 對軟體工程師來說，技能組肯定是會改變的。這件事情我想大家都已經是過來人，舊技能的需求會減少，新技能的需求會增加。這幾天又上了一次 Will 保哥的 Github Copilot 課程，保哥就講他現在用嘴巴寫程式，打字退化，因為 Github Copilot 可以接受語音辨識輸入指令協助你寫 code。這樣透過與 AI Agent 交互協作開發軟體的 UX 體驗，是目前演進中的趨勢。

所以，只要你對 coding 有興趣，現在學是再好不過的時機。享受新的軟體開發時代來臨吧。

對 Autopilot Coding 發展有興趣的，可以關注 SWE-bench 評測(AI 是否能全自動解決 github issue) 目前最好的只有 19.27 成功率。所以你要說 AI 已經普遍超越初階軟體工程師我是不相信啦。這有人做深入分析 How Do AI Software Engineers Really Compare To Humans?，你會發現能解決的 issue 大部分都是小範圍的修改。

👍Apple Intelligence 發表

今年 WWDC 眾所期待發表了 Apple Intelligence，看來主要是由三個 LLM 所組成:

– Apple 地端 Siri: 判斷問題類型、基本文字任務、呼叫本機 function 等簡單任務，這是個 Apple 自製的 3B 小模型。另外本機還要負責做 semantic search 找出要參考的個人 context 資料。
– Apple 雲端 Private Cloud Compute 的 LLM: 當用戶指令比較複雜時改用這個，會根據傳上來的 context 資料做複雜任務規劃，這是個 Apple 自製特調此場景的大模型 (這 server 也是用 Apple Silicon 晶片，不是 Nvidia 喔）
– 整合外部 OpenAI ChatGPT: 會用於泛用的知識問答聊天，當 Siri 判斷用戶的問題適合 gpt-4o 時，會跳提醒問用戶是否允許去問 OpenAI。這個外部模型我想不同地區將會是可切換的。

詳細技術可以看官方資料 Introducing Apple’s On-Device and Server Foundation Models 和 Platforms State of the Union 影片(0:01:35~0:09:14 這段有說明架構)
最重要的就是這張架構圖了:

🎯李宏毅教授生成式人工智慧導論

台大李宏毅教授的 “生成式人工智慧導論” 課程全部完結啦! 包括課程影片、投影片和作業 🤩

> 這門課程旨在讓已經熟悉生成式 AI 工具（例如：網頁版 ChatGPT）的同學，深入探索更多生成式 AI 的潛力，並掌握其背後的原理。這門課對學生的背景沒有預設，任何背景的學生都能理解課程內容。

🚧Google Colab 分享系列: LiteLLM 平行測試多家模型

各位 LLM 高級玩家們，一定常常想要一次測試多家模型吧。這裏幫大家把 Google Colab 程式寫好了 (需自備 API Key)。
一次串 28 個 LLM 而且是平行發送，速度快的先返回結果，總執行時間 = 最慢的那一個

第一次設定比較麻煩些，你需要拿到各家的 API Key 設定一下，包括 OpenAI, Groq, Gemini, Anthropic, Cohere, Mistral, OpenRouter 共七家
都是註冊登入後就可以拿到了，除了 OpenAI 要先綁信用卡才有 gpt-4，其他我記得都不需要。嫌麻煩你就註解掉不需要的模型即可。

順便介紹一下 OpenRouter 這家 API Provider
這家其實是個 API gateway，後面又串很多家，有幾個中國模型這裡也有，你只需要用這個 API 端點就可以對接多家模型。
然後我再搭配 LiteLLM 這個 Python 套件，統一用 OpenAI API 格式就可以對接多家模型。
所以 Litellm x OpenRouter 就可以輕鬆全部都測到啦。

👊不公開測資的 SEAL Leaderboards 評測

有些 LLM 的 Benchmark 表現好，是因為先看了題目把答案背起來了，而不是腦子好。
上個月 Scale AI 的一篇論文 Careful Examination of Large Language Model Performance on Grade School Arithmetic 實驗表明了資料集污染卻有其事。

最大苦主是 Mixtral 8x22B 和 Phi-3，準確率的真實表現比 Benchmark 還低上 13%，明顯過度擬合(over-fitting) 有背書現象。而 gpt-4 和 claude 3 表現最好，真實性能更高。

實驗的 Benchmark 是用 GSM8k，這是一個公開的小學算術的資料集，可以想像很多模型在訓練的時候，一定會把這個題目放進去訓練。而 Scale AI 從頭做了一個類似的不公開資料集 GSM1k 來做評測，發現很多模型的 GSM1k 分數比 GSM8k 還低! 特別是本來分數就比較低(40%~70%)的小模型，其實際的數學推理能力是更低的。

Jim Fan 大神就說了: 這種不公開資料集的 benchmark，例如 Scale AI 這種可靠第三方做的，會更可靠有用，因為模型廠商不知道題目 😄

而這個 SEAL Leaderboards 就是 Scale AI 最新推出的評測排行榜，題目是不公開的。

👊每月更新測資的 LiveBench 評測

為了避免各家模型因為背書造成高分假象，這是 Abacus.AI 和 Yann LeCunn 合作推出的新 LiveBench 評測。
之所以叫做 Live 就是因為每月都會更新問題集(來自最新的資料，例如新聞、論文、電影等)，因此各家模型在訓練時是無法先背起來的。

LiveBench 目前包含 6 個類別中的 18 個多樣化任務，並將隨著時間的推移發布更新更難的任務。
這個月剛推出的 Claude 3.5 Sonnet 目前排第一，但也只是勉強及格 62 分。
更讓我感到震驚的是，小模型 SLM 的分數真的慘烈，分數很低，還有 0 分的。

這種<del>殘酷</del>高鑑別力的評測最喜歡了。

– ihower

愛好 AI Engineer 電子報 🚀 新的軟體開發時代來臨 #13

🔝With AI, Anyone Can Be a Coder Now | Thomas Dohmke | TED

👍Apple Intelligence 發表

🎯李宏毅教授生成式人工智慧導論

🚧Google Colab 分享系列: LiteLLM 平行測試多家模型

👊不公開測資的 SEAL Leaderboards 評測

👊每月更新測資的 LiveBench 評測

請按讚：

發佈留言

發表迴響取消回覆

🔝With AI, Anyone Can Be a Coder Now | Thomas Dohmke | TED

👍Apple Intelligence 發表

🎯李宏毅教授 生成式人工智慧導論

🚧Google Colab 分享系列: LiteLLM 平行測試多家模型

👊不公開測資的 SEAL Leaderboards 評測

👊每月更新測資的 LiveBench 評測

分享此文：

請按讚：

發佈留言

發表迴響取消回覆

🎯李宏毅教授生成式人工智慧導論