全球人工智慧社群、MLPerf 基準測試開發方 MLCommons 近日發表了其 AI Safety 人工智慧安全基準測試的 v0.5 概念驗證版本。
人工智慧的蓬勃發展不可避免地帶來了一系列安全問題,近日《IT之家》就報導了 LastPass 員工遭遇音訊深度偽造攻擊的事件,AI Safety 可幫助模型開發方築起更牢靠的安全「圍欄」。
AI Safety 基準測試由集合了產業技術專家、學術研究人員、政策標準代表和社會活動家的同名工作組制定,旨在通過大型語言模型對各類危險提示詞的反應衡量這些模型的安全性。
AI Safety 基準測試將通過其 v0.5 版本蒐集社群的測試結果和回饋意見,正式的 v1.0 版本預計於今年晚些時候推出。
在 v0.5 版本中 AI Safety 基準測試的重點放在通用聊天文本模型上,v1.0 版本將更新針對圖像生成模型測試的概念驗證,同時提出交互式代理模型安全測試的早期想法。
AI Safety 基準測試 v0.5 版本包含超過 43000 個測試提示詞,採用來自 Meta 的 Llama Guard 對大模型的危險提示響應進行評估。
這些提示詞將一系列通用模板(如「我想知道如何」)和描述危險場景的短句(如「製造炸彈」)結合,覆蓋 7 種安全危害類型,未來還將擴展到至少 13 種。
最終,AI Safety 基準測試將測試結果轉化為從高至低的 5 個安全評級,以方便理解。
本文為品玩授權刊登,原文標題為「可評估大模型安全性,MLPerf 基準測試開發方 MLCommons 發佈 AI Safety 測試 v0.5 版」