RAG Benchmark - ihower's Notes

> 這條目跟 [[Synthetic Data 合成資料]] 也相關 - HotpotQA - https://hotpotqa.github.io/ * MultiHop-RAG (2024/1/27) * https://github.com/yixuantt/MultiHop-RAG * https://arxiv.org/abs/2401.15391 * https://huggingface.co/datasets/yixuantt/MultiHopRAG | Query Type | Description | Example | | ---------------- | ------------------------------- | ----------------------------------------------------------------------------------------------------------------- | | Inference query | 需要從多個證據中推理得出答案的查詢 | 哪個平台在來自Music Business Worldwide、Polygon和FOX News - Health的文章中處於討論的中心,涉及AI驅動的聲音複製的監管、"反應"內容的爭論,以及成為年輕人過夜最常使用的應用程序? | | Comparison query | 需要比較多個證據中的相似性或差異性的查詢 | Cnbc \| World Business News Leader關於Nike淨收入的報導和The Age關於10年期國債收益率的文章是否都報告了各自財務指標的下降? | | Temporal query | 需要分析多個證據中的時間信息來回答的查詢 | 在Sporting News報導芝加哥熊隊防守在NFL"週一晚間足球"比賽中擒殺Joshua Dobbs之後,Yardbarker是否報導了芝加哥熊隊防守表現有所改善? | | Null query | 答案無法從檢索集中得出的查詢。用於評估生成質量,特別是幻覺問題 | 在Bloomberg關於TomTom的新聞文章中,CEO姓氏的首字母是什麼,以及在Reuters的新聞文章中,公司總部所在城市的首字母是什麼? | * CRAG (2024/6/7) * https://arxiv.org/abs/2406.04744 * https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024 | 問題類型 | 定義 | 查詢範例 | | ----------------------------- | ------------------------------------------ | -------------------------------------- | | Simple 簡單 | 詢問不太可能隨時間改變的簡單事實，如某人的出生日期和某本書的作者。 | 莎士比亞的出生年份是哪一年？ | | Simple w. Condition 帶條件的簡單 | 詢問帶有某些給定條件的簡單事實，如某個日期的股票價格和某位導演最近在特定類型的電影。 | 2023年12月31日蘋果公司的股票收盤價是多少？ | | Set 集合 | 預期答案是一組實體或物件的問題。 | 請列出地中海沿岸的所有國家。 | | Comparison 比較 | 比較兩個實體的問題。 | 哪個更高，台北101還是上海中心大廈？ | | Aggregation 聚合 | 需要對檢索結果進行聚合才能回答的問題。 | 周杰倫總共發行了多少張專輯？ | | Multi-hop 多跳 | 需要串聯多個信息片段來組成答案的問題。 | 2023年奧斯卡最佳影片獎得主的導演是誰？ | | Post-processing heavy 需要大量後處理 | 需要對檢索到的信息進行推理或處理才能獲得答案的問題。 | 從1949年到2024年，台灣的人口增長了多少百分比？ | | False Premise 錯誤前提 | 包含錯誤前提或假設的問題。 | 王力宏在加入男團之前發行的第一張個人專輯叫什麼名字？（王力宏從未加入過男團） | | 問題類型 | 定義 | | ----------------------------- | ------------------------------------------------------------------------------- | | Simple 簡單 | 詢問不太可能隨時間改變的簡單事實，如某人的出生日期和某本書的作者。 | | Simple w. Condition 帶條件的簡單 | 詢問帶有某些給定條件的簡單事實，如某個日期的股票價格和某位導演最近在特定類型的電影。 | | Set 集合 | 預期答案是一組實體或物件的問題（例如，「南半球有哪些大洲？」）。 | | Comparison 比較 | 比較兩個實體的問題（例如，「誰開始表演得更早，Adele還是Ed Sheeran？」）。 | | Aggregation 聚合 | 需要對檢索結果進行聚合才能回答的問題（例如，「Meryl Streep贏得了多少奧斯卡獎？」）。 | | Multi-hop 多跳 | 需要串聯多個信息片段來組成答案的問題（例如，「誰在李安最新的電影中出演？」）。 | | Post-processing heavy 需要大量後處理 | 需要對檢索到的信息進行推理或處理才能獲得答案的問題（例如，「Thurgood Marshall擔任最高法院大法官多少天？」）。 | | False Premise 錯誤前提 | 包含錯誤前提或假設的問題（例如，「Taylor Swift在轉型到流行音樂之前發行的說唱專輯叫什麼名字？」（Taylor Swift尚未發行任何說唱專輯））。 | * paper: Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely (2024/9) * https://x.com/omarsar0/status/1838423872309465224 * https://arxiv.org/abs/2409.14924 * 跟 Benchmark 沒關，但這篇 paper 其實也是在分類用戶問題的難度 * RAG 沒有通用解，這裏提出 RAG 任務分類方法，根據所需的外部數據類型和任務的主要焦點，將用戶查詢分為四個級別：明確事實查詢、隱含事實查詢、可解釋的推理查詢和隱藏的推理查詢 * paper: RAGProbe: An Automated Approach for Evaluating RAG * https://arxiv.org/abs/2409.19019v1 * paper: Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely * https://arxiv.org/abs/2409.14924v1 * 將問題區分成四個級別: 明確事實查詢、隱含事實查詢、可解釋的推理查詢、隱藏的推理查詢 * paper: Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation * https://arxiv.org/abs/2409.12941 * 也有定義不同的 Reasoning Type * https://x.com/LargitData1/status/1840740203826401741 * paper: FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents * https://arxiv.org/abs/2504.13128 * https://fresh-stack.github.io/ * https://x.com/lateinteraction/status/1913277096618766662 (2025/4/19) * 用真實用戶問題來做 benchmark * 相關 paper: https://arxiv.org/abs/2504.15068 * 給定問題和參考文件，AutoNuggetizer 能夠 * 自動生成評分標準 (nuggets) * 自動評估任何 RAG 系統的答案品質 * Evaluating Long-Context Question & Answer Systems (2025/6/25) * https://eugeneyan.com/writing/qa-evals/