Anthropic發布全球首個混合推理模型

（取自Anthropic X）

今天凌晨，Anthropic 正式發表 Claude 3.7 Sonnet，成為全球首款雙模式混合推理模型；同時 Anthropic 還發布了一款智慧編程工具「Claude Code」。

Claude 3.7 Sonnet 在標準模式能夠快速響應，而切換到擴展思考（Extended Thinking）模式，能進行深度自我反思，在數學、物理和編程等複雜任務上表現卓越，注重實用導向，不必要拒絕減少 45%，強化程式碼協作能力。

從基準測試結果來看，Claude 3.7 Sonnet（擴展思維版）適用於強邏輯推理和數學任務。具體來看，在評估 AI 解決真實軟體問題能力的 SWE-bench Verified 基準測試中，Claude 3.7 Sonnet 達到了產業領先水準；同時，該模型在 TAU-bench 測試中也表現不錯，超越其舊版本與 OpenAI o1。

值得一提的是，Claude 3.7 Sonnet 在 Anthropic 內部的 Pokémon 遊戲測試中超越了所有前代模型，展現了更強的決策與規劃能力。

與 DeepSeek R1 展示的思考過程相比，Claude 3.7 Sonnet 公開的思考過程相對客觀、缺乏個性化表達。Anthropic 表示，未對模型的思維過程進行標準角色訓練，希望給予 Claude 最大自由度進行自主思考；並且其認為所謂「思考」過程不一定真實反映了 AI 的內部決策邏輯，因此，Anthropic 未來將基於用戶回饋和研究決定是否繼續公開 Claude 的思維鏈。

而 Claude Code 支持直接在終端理解並操作代碼庫，能一次完成需 45 分鐘以上的人工編程任務，專長於測試驅動開發、複雜調試和大規模程式碼重構，全面支持程式碼編輯、測試執行等核心開發流程。

目前，Claude 3.7 Sonnet 已適用於所有 Claude 訂閱計劃，包括免費版、專業版、團隊版和企業版，同時也可通過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問。除免費版外，所有平台均支持擴展思考模式。

價格方面，定價與前代模型保持一致，輸入 100 萬 token/3 美元，輸出 100 萬 token/15 美元（包括思考過程中使用的 token）。

此外，Claude Code 的預覽研究版本也已上架官方網站。

本文為愛范兒授權刊登，原文標題為「Anthropic 發佈全球首個混合推理模型」