微軟發布27億參數語言模型 Phi-2,性能可媲美或優於比它大25倍的模型
Yangz / 何渝婷編譯
2023-12-13 10:31

(示意圖/取自pixabay)

微軟發佈 27 億參數的語言模型—Phi-2,據介紹,由於在模型縮放和訓練數據整理方面進行了創新,在複雜的基準測試中,Phi-2 的性能可媲美或優於比它大 25 倍的模型。

據悉,Phi-2 是一個基於 Transformer 的模型,在 1.4 T 的詞塊上進行了訓練,這些詞塊來自 NLP 和編碼的合成數據集和網路數據集。

在 96 個 A100 GPU 上對 Phi-2 的訓練耗時 14 天,Phi-2 是一個基礎模型,沒有通過人類回饋強化學習(RLHF)進行調整,也沒有經過指導性微調。

儘管如此,與經過對齊的現有開源模型相比,Phi-2 在毒性和偏差方面有更好的表現。

在各種綜合基準測試中,Phi-2 超越了 Mistral 和 Llama-2 模型在 70 億和 130 億參數下的性能。

值得注意的是,在多步驟推理任務(即編碼和數學)上,Phi-2 的性能是 Llama-2-70 B 模型的 25 倍。

此外,Phi-2 的性能與最近發佈的 Google Gemini Nano 2 不相上下,甚至更勝一籌。

本文為AI新智界授權刊登,原文標題為「微軟發佈 27 億參數語言模型 Phi-2,性能可媲美或優於比它大 25 倍的模型