Google Deepmind、史丹佛大學研究人員推出AI事實核查工具
品玩 / 何渝婷編譯
2024-04-01 12:30

根據 Arxiv 頁面顯示,Google近日聯手史丹佛大學推出一款基於大語言模型的工具 SAFE(Search-Augmented Factuality Evaluator)。

據研究顯示,SAFE可對聊天機器人生成的長回覆進行事實核查,該系統可通過四個步驟對聊天機器人生成的回覆進行分析、處理和評估,以驗證準確性和真實性:將答案分割成單個待核查內容、對上述內容進行修正、再與Google搜尋結果進行比較。

隨後,該系統還會檢查各個事實與原始問題的相關性。

為評估其性能,研究人員創建了包含約 16000 個事實的數據集 LongFact,並在來自 Claude、Gemini、GPT、PaLM-2 的 13 個大語言模型上測試了該系統。

結果顯示,在對 100 個有爭議的事實進行的重點分析中,SAFE 的判定在進一步審查下正確率達到 76%;與此同時,該框架還具備經濟性優勢,就是其成本比人工注釋便宜 20 多倍。

本文為品玩授權刊登,原文標題為「谷歌 Deepmind、斯坦福大學研究人員推出 AI 事實核查工具