(示意圖/取自pixabay)
根據《IT之家》7月13日報導,外媒 Semianalysis 近日對 OpenAI 今年 3 月發表的 GPT-4 大模型進行了揭秘,其中包括 GPT-4 模型架構、訓練和推理的基礎設施、參數量、訓練數據集、token 數、成本、混合專家模型(Mixture of Experts)等具體的參數和資訊。
外媒表示,GPT-4 在 120 層中總共包含了 1.8 兆參數,而 GPT-3 只有約 1750 億個參數。
而為了保持合理的成本,OpenAI 採用混合專家模型來進行建構。
據悉,GPT-4 使用了 16 個混合專家模型(mixture of experts),每個有 1110 億個參數,每次前向傳遞路由經過兩個專家模型。
此外,它有 550 億個共享注意力參數,使用了包含 13 兆 tokens 的數據集訓練,tokens 不是唯一的,根據迭代次數計算為更多的 tokens。
GPT-4 預訓練階段的上下文長度為 8k,32k 版本是對 8k 微調的結果,訓練成本相當高,外媒表示,8x H100 也無法以每秒 33.33 個 Token 的速度提供所需的密集參數模型,因此訓練該模型需要導致極高的推理成本,以 H100 物理機每小時 1 美元計算,那麼一次的訓練成本就高達 6300 萬美元。
對此,OpenAI 選擇使用雲端的 A100 GPU 訓練模型,將最終訓練成本降至 2150 萬美元左右,用稍微更長的時間,降低了訓練成本。
本文為巴比特授權刊登,原文標題為「GPT-4 模型架構洩露:包含 1.8 萬億參數、採用混合專家模型」