Anthropic發布全球首個混合推理模型
愛范兒 / 何渝婷編譯
2025-02-25 10:15

(取自Anthropic X)

今天凌晨,Anthropic 正式發表 Claude 3.7 Sonnet,成為全球首款雙模式混合推理模型;同時 Anthropic 還發布了一款智慧編程工具「Claude Code」。

Claude 3.7 Sonnet 在標準模式能夠快速響應,而切換到擴展思考(Extended Thinking)模式,能進行深度自我反思,在數學、物理和編程等複雜任務上表現卓越,注重實用導向,不必要拒絕減少 45%,強化程式碼協作能力。

從基準測試結果來看,Claude 3.7 Sonnet(擴展思維版)適用於強邏輯推理和數學任務。具體來看,在評估 AI 解決真實軟體問題能力的 SWE-bench Verified 基準測試中,Claude 3.7 Sonnet 達到了產業領先水準;同時,該模型在 TAU-bench 測試中也表現不錯,超越其舊版本與 OpenAI o1。

值得一提的是,Claude 3.7 Sonnet 在 Anthropic 內部的 Pokémon 遊戲測試中超越了所有前代模型,展現了更強的決策與規劃能力。

與 DeepSeek R1 展示的思考過程相比,Claude 3.7 Sonnet 公開的思考過程相對客觀、缺乏個性化表達。Anthropic 表示,未對模型的思維過程進行標準角色訓練,希望給予 Claude 最大自由度進行自主思考;並且其認為所謂「思考」過程不一定真實反映了 AI 的內部決策邏輯,因此,Anthropic 未來將基於用戶回饋和研究決定是否繼續公開 Claude 的思維鏈。

而 Claude Code 支持直接在終端理解並操作代碼庫,能一次完成需 45 分鐘以上的人工編程任務,專長於測試驅動開發、複雜調試和大規模程式碼重構,全面支持程式碼編輯、測試執行等核心開發流程。

目前,Claude 3.7 Sonnet 已適用於所有 Claude 訂閱計劃,包括免費版、專業版、團隊版和企業版,同時也可通過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問。除免費版外,所有平台均支持擴展思考模式。

價格方面,定價與前代模型保持一致,輸入 100 萬 token/3 美元,輸出 100 萬 token/15 美元(包括思考過程中使用的 token)。

此外,Claude Code 的預覽研究版本也已上架官方網站。

本文為愛范兒授權刊登,原文標題為「Anthropic 發佈全球首個混合推理模型