NVIDIA聯合推出StarCoder2模型，可執行生成、補全程式碼

NVIDIA近日聯合 Hugging Face 和 ServiceNow，發表了名為 StarCoder2 的 LLMs 系列模型，希望成為程式碼生成領域的新標準，具備性能、透明度和成本效益等諸多優勢。

該系列模型包括一個由 ServiceNow 訓練的 30 億參數模型、一個由 Hugging Face 訓練的 70 億參數模型和一個由程式碼訓練的 150 億參數模型。

這是通過使用名為 Stack v2 的新程式碼數據集實現的，該數據集比 Stack v1 大七倍；新的訓練技術也意味著該模型可以更好地理解 COBOL 等低資源編程語言、數學和源程式碼討論。

StarCoder2 經過 619 門編程語言培訓，可以執行源程式碼生成、工作流生成、文本摘要等專業任務。

NVIDIA表示，開發人員可以利用它進行程式碼補全、高級程式碼總結、程式碼片段檢索等，從而提高工作效率。

NVIDIA表示相比較初版 StarCoder LLMs，新的 30 億參數模型進一步精簡和篩選了優質參數，其性能相當於 150 億參數模型的初版 StarCoder。

StarCoder2 採用 BigCode Open RAIL-M 許可證，允許免版稅訪問和使用。