LMSYS Org更新基準測試報告,Claude-3超越GPT-4
品玩 / 何渝婷編譯
2024-03-28 18:05

LMSYS Org 近日公布最新基準測試報告,Claude-3 得分以微弱優勢超越 GPT-4,成為該平台「最佳」大語言模型。

根據LMSYS Org 旗下的基準測試平台 Chatbot Arena顯示,Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱優勢擊敗了 GPT-4,OpenAI 的 LLM 被擠下了榜首位置。

由於比分過於接近,出於誤差率方面的考量,該機構讓 Claude 3 和 GPT-4 並列第一,GPT-4 的另一個預覽版也並列第一。

本文為品玩授權刊登,原文標題為「LMSYS Org 更新基準測試報告,Claude-3 超越 GPT-4