蘋果AI專家質疑：大語言模型根本無法進行邏輯推理

（示意圖/取自pixabay）

近兩年，大語言模型（LLM）在多種任務上的表現受到了人們的極大關注，同時也引發了對其邏輯推理能力的質疑。

蘋果公司的 Iman Mirzadeh 及其團隊通過創建 GSM-Symbolic 基準測試，對多個開源模型（如 Llama、Phi、Gemma、Mistral）和閉源模型（如 GPT-4o、o1 系列）進行評估。

當問題中的數字或名稱發生改變時，模型的表現會大幅波動，而且隨著問題的複雜度增加，模型的表現急劇下降，顯示出在處理複雜問題時的不穩定性。

例如僅僅改變問題中的名字，就可能導致模型的準確率變化高達 10%，如果將這種情況類比到小學數學測試中，僅僅因為改變了人名而導致分數下降 10%。

未來，大語言模型需要突破模式匹配，真正實現邏輯推理，才能應對不斷變化的現實需求。