推特等公司要價太高,OpenAI和Cohere等AI公司轉向合成數據
東尋 / 何渝婷編譯
2023-07-20 11:36

根據《IT之家》 7 月 20 日消息,人工智慧公司 Cohere 執行長 Aiden Gomez 近日透露,由於 Reddit、Twitter 等公司的數據採集要價太高,包括微軟、OpenAI 和 Cohere 在內的 AI 公司,已使用合成數據來訓練 AI 模型。

Gomez 表示合成數據可以適用於很多訓練場景,只是目前尚未全面推廣。

Gomez 舉例稱:「如果某個企業想在高等數學中訓練一個模型,可以創建兩個人工智慧模型,分別扮演老師和學生的角色,並讓它們討論三角學之類的話題。人工主要負責觀察,如果看到有什麼錯誤,可以進行糾正。」

據悉,合成數據(synthetic data)是通過電腦技術人工生成的數據,而不是由真實事件產生的數據。

但合成數據具備「可用性」,能夠在數學上或統計學上反映原始數據的屬性,因此可以作為原始數據的替代品來訓練、測試並驗證大模型。

本文為巴比特授權刊登,原文標題為「推特等公司要價太高,OpenAI 和 Cohere 等 AI 公司轉向合成數據