OpenAI開放滿血o1 API

台灣時間今天凌晨，在 OpenAI 第九場發表會上，其焦點主要放在 API 和開發者服務的全新升級上，並宣布向 API 使用等級 5 級的開發者開放 OpenAI o1 API 的訪問權限。

據官方介紹，現已正式上線的 o1 具備多項關鍵功能，可支持實際應用場景如下：

函數調用：無縫連接 o1 與外部數據和 API。
結構化輸出：生成可靠地遵循自定義 JSON 模式的響應。
開發者指令：為模型指定指令或上下文，例如定義語氣、風格以及其他行為指導。
視覺能力：推理圖像，開啓更多科學、製造或編程領域的應用，特別是在視覺輸入至關重要的場景中。
更低延遲：與 o1-preview 相比，o1 在處理相同請求時，推理 token 使用量平均減少 60%。

OpenAI 對 Realtime API 也進行了全面升級，新版本特別適合開發語音助理、即時翻譯工具等應用場景；同時，Realtime API 能夠集成到智慧眼鏡等可穿戴設備中，或者輕鬆接入各類鏡頭和麥克風系統。

Realtime API 此次更新重點包括 WebRTC 直接集成、價格調整以及更精細的響應控制。

據介紹，WebRTC 可自動處理音訊編碼、串流媒體傳輸、降噪和雍塞控制等關鍵功能，即使在網路條件不穩定的情況下也能保證流暢的用戶體驗。

Realtime API 還新增了多項實用功能：

後台任務，如內容審核或分類，可以在不干擾用戶語音互動的情況下進行。
允許自定義輸入上下文，指定哪些對話內容作為模型的輸入。
控制響應時機，利用服務器端語音活動檢測（VAD），但不自動觸發回應。
延長最大會話時長，將原本 15 分鐘的會話時長增加到 30 分鐘。

在定價方面，OpenAI 大幅下調了相關服務費用：gpt-4o-realtime-preview-2024-12-17 音訊 token 價格下調 60%，降至每百萬輸入 token 40 美元，每百萬輸出 token 80 美元；音訊輸入緩存費用僅需每百萬 token 2.50 美元，大幅下降 87.5%；同時推出的 GPT-4o mini 為開發者提供了更具CP值的選擇，在保持體驗的同時，將音訊價格設定為每百萬輸入 token 10 美元，每百萬輸出 token 20 美元，文本 token 則分別為 0.60 美元和 2.40 美元。

另外，此次更新還為微調 API 帶來了偏好微調（Preference Fine-Tuning）技術，其採用直接偏好優化(DPO)技術，通過比較模型響應來訓練 AI 區分用戶偏好。

最後，OpenAI 還發表了 Go 和 Java SDK 測試版，與現有的 Python、Node.js 和 .NET 庫一起，為開發者提供更全面的開發工具支持。

直播活動結束後，OpenAI 也在 Reddit 論壇上舉辦了 AMA（Ask Me Anything）活動。問答中，OpenAI 確認計劃在 Assistants 中支持 o1，同時將在明年對 Assistants API 進行迭代和改進。

本文為愛范兒授權刊登，原文標題為「OpenAI 開放滿血 o1 API」