MLPerf最新結果公布,Arm伺服器亮眼首秀
吳優 / 何渝婷編譯
2021-09-27 09:45

MLCommons日前公布最新MLPerf Inference V 1.1基準測試(Benchmark)結果,與V 1.0版本相比並無太大區別,只不過在邊緣推理的測試場景中,串流傳輸被棄用,不再作為基準測試的一部分。

新一輪基準測試中,在AI領域佔優勢的輝達依然是唯一一家,提交了從數據中心到邊緣所有MLPerf基準測試類別數據的公司。

不同的是,此次基準測試中,輝達第一次在Arm系統上進行數據中心測試,並取得不錯的成績。

Arm伺服器推理性能接近x86

由於能效性能的不斷成長和強大的軟體生態系統,Arm架構正在向全球各地的數據中心進軍,而在此次MLPerf基準測試中,Arm伺服器也被納入其中。

輝達展示的基準測試結果表明,如果以A30 GPU為標準,基於x86伺服器和Arm伺服器的處理速度均有提升。離線(Offline)測試中,基於兩種伺服器的A100處理速度差別不大,相比於A30的處理速度均有接近2倍的提升;伺服器(Server)測試中,A100相比於A30有1至3 倍的提升,在語音辨識RNN-T模型中,基於x86的A100處理速度與基於Arm伺服器差別較大。

另外,本次基準測試中,A100也同時基於Ampere Altra CPU的Arm伺服器和英特爾的x86伺服器上進行了測試。

作為GPU加速的平台,在AI推理工作中,使用Ampere Altra CPU的Arm伺服器的性能,稍遜於具有類似配置的x86伺服器,但在3D-Unet工作負載測試中,基於Arm伺服器的A100性能得分超過了x86伺服器。

一直以來支持所有CPU架構的輝達表示,十分高興能夠看到Arm在同行評審中的產業基準測試中,能夠證明其AI性能。

Arm高性能計算和工具高級總監David Lecomber表示:「最新推理結果表明,Arm CPU和NVIDIA GPU驅動的Arm系統,已能夠應對數據中心中的各種AI工作負載。」

AI推理性能四個月內提升20%

此次基準測試中,輝達一如既往地展示了其AI推理性能,輝達憑藉其架構設計配合軟體再次取得突破。

與MLPerf 0.7版本相比,本次測試中輝達A100 GPU各類工作負載得分均有提升。其中,醫學圖像3D U-Net模型漲幅高達150%,語音辨識RNN-T模型測試漲幅高達130%。

事實上,在今年4月份MLPerf 1.0版本中,A100 GPU的推理能力就已經在推薦系統模型DLRM,語音辨識模型RNN-T和醫療影像3D U-Net模型方面有一定提升,提升幅度最高達45%,而此次又取得新突破,相比四個月前提升了20%。

根據輝達的介紹,其完整的AI軟體堆疊是提升其GPU性能的關鍵。

輝達TAO Toolkit可以簡化遷移學習過程,用戶能夠在熟悉的環境中優化模型;輝達Tensor RT軟體對AI模型進行了優化,使其能夠最有效地運用內存並且實現更快的運行速度。Trition推理伺服器能夠簡化雲端、本地數據中心或邊緣的服務部署,支持不同應用中的詐欺檢測、包裹分析、圖像分割等各類任務。

此外,在多實例GPU(MIG)技術的支持下,輝達A100能夠提升將近7倍的GPU資源,即在一塊GPU上運行7種工作負載,而A30只能支持4種工作負載。

輝達的AI優勢不僅僅體現在自家GPU的得分上,此次基準測試中,共計7家OEM廠商提交了22個GPU加速平台,這些伺服器中大多數都是輝達認證系統,很多型號都支持上個月正式發表的輝達AI Enterprise軟體。

輝達的AI技術已經得到廣大生態系統的支持,此次與Arm系統的合作,也從側面反映了輝達進軍Arm的決心。

本文為雷鋒網授權刊登,原文標題為「MLPerf 最新結果公佈,Arm 服務器亮眼首秀