> 這條目跟 [[Synthetic Data 合成資料]] 也相關
- HotpotQA
- https://hotpotqa.github.io/
* MultiHop-RAG (2024/1/27)
* https://github.com/yixuantt/MultiHop-RAG
* https://arxiv.org/abs/2401.15391
* https://huggingface.co/datasets/yixuantt/MultiHopRAG
| Query Type | Description | Example |
| ---------------- | ------------------------------- | ----------------------------------------------------------------------------------------------------------------- |
| Inference query | 需要從多個證據中推理得出答案的查詢 | 哪個平台在來自Music Business Worldwide、Polygon和FOX News - Health的文章中處於討論的中心,涉及AI驅動的聲音複製的監管、"反應"內容的爭論,以及成為年輕人過夜最常使用的應用程序? |
| Comparison query | 需要比較多個證據中的相似性或差異性的查詢 | Cnbc \| World Business News Leader關於Nike淨收入的報導和The Age關於10年期國債收益率的文章是否都報告了各自財務指標的下降? |
| Temporal query | 需要分析多個證據中的時間信息來回答的查詢 | 在Sporting News報導芝加哥熊隊防守在NFL"週一晚間足球"比賽中擒殺Joshua Dobbs之後,Yardbarker是否報導了芝加哥熊隊防守表現有所改善? |
| Null query | 答案無法從檢索集中得出的查詢。用於評估生成質量,特別是幻覺問題 | 在Bloomberg關於TomTom的新聞文章中,CEO姓氏的首字母是什麼,以及在Reuters的新聞文章中,公司總部所在城市的首字母是什麼? |
* CRAG (2024/6/7)
* https://arxiv.org/abs/2406.04744
* https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024
| 問題類型 | 定義 | 查詢範例 |
| ----------------------------- | ------------------------------------------ | -------------------------------------- |
| Simple 簡單 | 詢問不太可能隨時間改變的簡單事實,如某人的出生日期和某本書的作者。 | 莎士比亞的出生年份是哪一年? |
| Simple w. Condition 帶條件的簡單 | 詢問帶有某些給定條件的簡單事實,如某個日期的股票價格和某位導演最近在特定類型的電影。 | 2023年12月31日蘋果公司的股票收盤價是多少? |
| Set 集合 | 預期答案是一組實體或物件的問題。 | 請列出地中海沿岸的所有國家。 |
| Comparison 比較 | 比較兩個實體的問題。 | 哪個更高,台北101還是上海中心大廈? |
| Aggregation 聚合 | 需要對檢索結果進行聚合才能回答的問題。 | 周杰倫總共發行了多少張專輯? |
| Multi-hop 多跳 | 需要串聯多個信息片段來組成答案的問題。 | 2023年奧斯卡最佳影片獎得主的導演是誰? |
| Post-processing heavy 需要大量後處理 | 需要對檢索到的信息進行推理或處理才能獲得答案的問題。 | 從1949年到2024年,台灣的人口增長了多少百分比? |
| False Premise 錯誤前提 | 包含錯誤前提或假設的問題。 | 王力宏在加入男團之前發行的第一張個人專輯叫什麼名字?(王力宏從未加入過男團) |
| 問題類型 | 定義 |
| ----------------------------- | ------------------------------------------------------------------------------- |
| Simple 簡單 | 詢問不太可能隨時間改變的簡單事實,如某人的出生日期和某本書的作者。 |
| Simple w. Condition 帶條件的簡單 | 詢問帶有某些給定條件的簡單事實,如某個日期的股票價格和某位導演最近在特定類型的電影。 |
| Set 集合 | 預期答案是一組實體或物件的問題(例如,「南半球有哪些大洲?」)。 |
| Comparison 比較 | 比較兩個實體的問題(例如,「誰開始表演得更早,Adele還是Ed Sheeran?」)。 |
| Aggregation 聚合 | 需要對檢索結果進行聚合才能回答的問題(例如,「Meryl Streep贏得了多少奧斯卡獎?」)。 |
| Multi-hop 多跳 | 需要串聯多個信息片段來組成答案的問題(例如,「誰在李安最新的電影中出演?」)。 |
| Post-processing heavy 需要大量後處理 | 需要對檢索到的信息進行推理或處理才能獲得答案的問題(例如,「Thurgood Marshall擔任最高法院大法官多少天?」)。 |
| False Premise 錯誤前提 | 包含錯誤前提或假設的問題(例如,「Taylor Swift在轉型到流行音樂之前發行的說唱專輯叫什麼名字?」(Taylor Swift尚未發行任何說唱專輯))。 |
* paper: Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely (2024/9)
* https://x.com/omarsar0/status/1838423872309465224
* https://arxiv.org/abs/2409.14924
* 跟 Benchmark 沒關,但這篇 paper 其實也是在分類用戶問題的難度
* RAG 沒有通用解,這裏提出 RAG 任務分類方法,根據所需的外部數據類型和任務的主要焦點,將用戶查詢分為四個級別:明確事實查詢、隱含事實查詢、可解釋的推理查詢和隱藏的推理查詢
* paper: RAGProbe: An Automated Approach for Evaluating RAG
* https://arxiv.org/abs/2409.19019v1
* paper: Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
* https://arxiv.org/abs/2409.14924v1
* 將問題區分成四個級別: 明確事實查詢、隱含事實查詢、可解釋的推理查詢、隱藏的推理查詢
* paper: Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
* https://arxiv.org/abs/2409.12941
* 也有定義不同的 Reasoning Type
* https://x.com/LargitData1/status/1840740203826401741
* paper: FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
* https://arxiv.org/abs/2504.13128
* https://fresh-stack.github.io/
* https://x.com/lateinteraction/status/1913277096618766662 (2025/4/19)
* 用真實用戶問題來做 benchmark
* 相關 paper: https://arxiv.org/abs/2504.15068
* 給定問題和參考文件,AutoNuggetizer 能夠
* 自動 生成評分標準 (nuggets)
* 自動 評估任何 RAG 系統的答案品質
* Evaluating Long-Context Question & Answer Systems (2025/6/25)
* https://eugeneyan.com/writing/qa-evals/