蘋果發表OpenELM,基於開源訓練和推理框架的高效語言模型
品玩 / 何渝婷編譯
2024-04-25 10:30

(示意圖/取自pixabay)

根據《Readhub》報導,在 WWDC24 之前,蘋果在 Hugging Face 平台上發表了一個「具有開源訓練和推理框架的高效語言模型」,名為 OpenELM。

這是一項開源語言模型,其源碼及預訓練的模型權重和訓練配方可在蘋果 Github 庫中獲取。

OpenELM 使用分層縮放策略,可以有效地分配 Transformer 模型每一層的參數,從而提高準確率。

例如,在參數量約為 10 億的情況下,OpenELM 與 OLMo 相比準確率提升了 2.36%,同時所需的預訓練 tokens 數量僅有原來的 50%。

本文為品玩授權刊登,原文標題為「蘋果發佈 OpenELM,基於開源訓練和推理框架的高效語言模型