Recursive Abstractive Processing for Tree-Organized Retrieval
paper: https://arxiv.org/abs/2401.18059
> 透過建立文件摘要樹來解決此問題的一種方法:對文件進行聚類並對聚類進行匯總,以捕獲相似文件中的更高級別資訊。 這是遞歸重複的,產生具有不同抽象層級的摘要樹(文檔是葉子,相關文檔的中間摘要位於中間,文檔的高級摘要位於根)。
> 將區塊分層聚類/匯總為包含高級和低級部分的樹結構。 與樸素的 top-k RAG 相比,這允許您檢索低階和高級詳細資訊以回答不同的問題。
https://twitter.com/ravithejads/status/1753283324712517640
https://twitter.com/marktenenholtz/status/1753552863962312745
https://twitter.com/bindureddy/status/1753994930366930953
https://twitter.com/IntuitMachine/status/1753044020601696317
* 作者實作
* https://twitter.com/parthsarthi03/status/1765095824105906248
* The official implementation of RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
* code: https://github.com/parthsarthi03/raptor
https://www.youtube.com/watch?v=jbGchdTL7d0
https://ai.gopubby.com/building-long-context-rag-from-scratch-with-raptor-using-langchain-c6491f1ba141
llamaindex
https://twitter.com/llama_index/status/1763972097628684607
https://twitter.com/jerryjliu0/status/1764035314706981331
https://twitter.com/llama_index/status/1765092767188045844
https://blog.gopenai.com/deep-dive-into-raptor-with-llamaindex-raptor-pack-8eb4fa32df30
langchain
https://twitter.com/LangChainAI/status/1765061520852148545
https://twitter.com/RLanceMartin/status/1765476002309022180
出現在 LangChain RAG from scratch 系列 13 集
RAG From Scratch: Indexing w/ RAPTOR
https://twitter.com/LangChainAI/status/1773753067701436727 (2024/3/30)
https://github.com/langchain-ai/langchain/blob/master/cookbook/RAPTOR.ipynb
介紹文
https://www.deeplearning.ai/the-batch/raptor-a-recursive-summarizer-captures-more-relevant-context-for-llm-inputs/ (2024/5/29)
和其他方法一起比較
https://ai.gopubby.com/advanced-rag-12-enhancing-global-understanding-b13dc9a8db39
----
* Deep Research (2025/2/15)
* https://chatgpt.com/c/67af7a86-e6d8-8008-9db1-99aeaf669a5d
* RAPTOR 目前主要針對**靜態語料**構建索引,對於累進更新的支援仍在探索中。官方論文和程式實現中**未明確提供**實時動態更新索引的算法。
* 在官方提供的 API 中,可以反覆調用 RA.add_documents(text) 將新文本加入現有索引。實際上,對於新增少量文檔,這樣做等價於將它們作為新的葉節點插入,再根據語義相似度併入適當的叢集。但嚴格來說要保持全局最優的樹結構,可能需要重新聚類已有節點與新節點的全集,以免錯過跨文檔的新的語義組合。由於目前演算法並未特別優化增量聚類,因此累進更新可能需要部分重建索引,在頻繁有新內容插入的情境下效率不佳。