蘋果AI專家質疑:大語言模型根本無法進行邏輯推理
愛范兒 / 何渝婷編譯
2024-10-15 13:48

(示意圖/取自pixabay)

近兩年,大語言模型(LLM)在多種任務上的表現受到了人們的極大關注,同時也引發了對其邏輯推理能力的質疑。

蘋果公司的 Iman Mirzadeh 及其團隊通過創建 GSM-Symbolic 基準測試,對多個開源模型(如 Llama、Phi、Gemma、Mistral)和閉源模型(如 GPT-4o、o1 系列)進行評估。

當問題中的數字或名稱發生改變時,模型的表現會大幅波動,而且隨著問題的複雜度增加,模型的表現急劇下降,顯示出在處理複雜問題時的不穩定性。

例如僅僅改變問題中的名字,就可能導致模型的準確率變化高達 10%,如果將這種情況類比到小學數學測試中,僅僅因為改變了人名而導致分數下降 10%。

未來,大語言模型需要突破模式匹配,真正實現邏輯推理,才能應對不斷變化的現實需求。

本文為愛范兒授權刊登,原文標題為「蘋果 AI 專家質疑:大語言模型根本無法進行邏輯推理