台灣時間今天凌晨,在 OpenAI 第九場發表會上 ,其焦點主要放在 API 和開發者服務的全新升級上,並宣布向 API 使用等級 5 級的開發者開放 OpenAI o1 API 的訪問權限。
據官方介紹,現已正式上線的 o1 具備多項關鍵功能,可支持實際應用場景如下:
- 函數調用:無縫連接 o1 與外部數據和 API。
- 結構化輸出:生成可靠地遵循自定義 JSON 模式的響應。
- 開發者指令:為模型指定指令或上下文,例如定義語氣、風格以及其他行為指導。
- 視覺能力:推理圖像,開啓更多科學、製造或編程領域的應用,特別是在視覺輸入至關重要的場景中。
- 更低延遲:與 o1-preview 相比,o1 在處理相同請求時,推理 token 使用量平均減少 60%。
OpenAI 對 Realtime API 也進行了全面升級,新版本特別適合開發語音助理、即時翻譯工具等應用場景;同時,Realtime API 能夠集成到智慧眼鏡等可穿戴設備中,或者輕鬆接入各類鏡頭和麥克風系統。
Realtime API 此次更新重點包括 WebRTC 直接集成、價格調整以及更精細的響應控制。
據介紹,WebRTC 可自動處理音訊編碼、串流媒體傳輸、降噪和雍塞控制等關鍵功能,即使在網路條件不穩定的情況下也能保證流暢的用戶體驗。
Realtime API 還新增了多項實用功能:
- 後台任務,如內容審核或分類,可以在不干擾用戶語音互動的情況下進行。
- 允許自定義輸入上下文,指定哪些對話內容作為模型的輸入。
- 控制響應時機,利用服務器端語音活動檢測(VAD),但不自動觸發回應。
- 延長最大會話時長,將原本 15 分鐘的會話時長增加到 30 分鐘。
在定價方面,OpenAI 大幅下調了相關服務費用:gpt-4o-realtime-preview-2024-12-17 音訊 token 價格下調 60%,降至每百萬輸入 token 40 美元,每百萬輸出 token 80 美元;音訊輸入緩存費用僅需每百萬 token 2.50 美元,大幅下降 87.5%;同時推出的 GPT-4o mini 為開發者提供了更具CP值的選擇,在保持體驗的同時,將音訊價格設定為每百萬輸入 token 10 美元,每百萬輸出 token 20 美元,文本 token 則分別為 0.60 美元和 2.40 美元。
另外,此次更新還為微調 API 帶來了偏好微調(Preference Fine-Tuning)技術,其採用直接偏好優化(DPO)技術,通過比較模型響應來訓練 AI 區分用戶偏好。
最後,OpenAI 還發表了 Go 和 Java SDK 測試版,與現有的 Python、Node.js 和 .NET 庫一起,為開發者提供更全面的開發工具支持。
直播活動結束後,OpenAI 也在 Reddit 論壇上舉辦了 AMA(Ask Me Anything)活動。問答中,OpenAI 確認計劃在 Assistants 中支持 o1,同時將在明年對 Assistants API 進行迭代和改進。
本文為愛范兒授權刊登,原文標題為「OpenAI 開放滿血 o1 API」