Google Deepmind、史丹佛大學研究人員推出AI事實核查工具

根據 Arxiv 頁面顯示，Google近日聯手史丹佛大學推出一款基於大語言模型的工具 SAFE（Search-Augmented Factuality Evaluator）。

據研究顯示，SAFE可對聊天機器人生成的長回覆進行事實核查，該系統可通過四個步驟對聊天機器人生成的回覆進行分析、處理和評估，以驗證準確性和真實性：將答案分割成單個待核查內容、對上述內容進行修正、再與Google搜尋結果進行比較。

隨後，該系統還會檢查各個事實與原始問題的相關性。

為評估其性能，研究人員創建了包含約 16000 個事實的數據集 LongFact，並在來自 Claude、Gemini、GPT、PaLM-2 的 13 個大語言模型上測試了該系統。

結果顯示，在對 100 個有爭議的事實進行的重點分析中，SAFE 的判定在進一步審查下正確率達到 76%；與此同時，該框架還具備經濟性優勢，就是其成本比人工注釋便宜 20 多倍。