CVPR 2024正式公佈多項論文等獎項，Google Research拿下最佳論文

（示意圖/取自CVPR 2024官方網站）

今天凌晨，美國西雅圖正在召開的國際電腦視覺與圖型識別會議 CVPR 2024 正式公佈了最佳論文等獎項。今年共有 2 篇論文獲得了這份全球最重要的電腦視覺領域的大獎，團隊成員分別來自Google Research、加州大學聖地牙哥分校、南加州大學、劍橋大學及布蘭戴斯大學。

本周（6.17-6.21），第四十一屆國際電腦視覺與圖型識別會議（CVPR）在美國西雅圖拉開帷幕。根據CVPR官方的最新公告，CVPR 2024已經成為該會議歷史上規模最大、參與人數最多的一屆，截止6月19日，現場參會人數已超過一萬兩千人。

作為電腦視覺乃至人工智慧領域最具學術影響力的三大會議之一，第一屆 CVPR 會議要追溯到1983年美國華盛頓，自此每一年都會吸引全球的電腦研究者和產業領袖彙聚一堂，共同探討電腦視覺領域最新的科學進展和產業成果。

作為領先的電腦視覺盛會，會議每年都會採用當前視覺領域的最新研究。早在2月27日，CVPR 官網就公佈了今年的論文接收結果：CVPR 2024 共有 35691 位註冊作者，11532 篇提交論文，其中 2719 篇被採用，採用率為 23.6%。

與之相比，CVPR 2023 共有 9155 篇論文被提交，2359 篇論文被接收，採用率為 25.8%。今年的論文數量提高了20.6%，創下新高，而採用率降低了2.2%。另外，hightlights 和 Oral 兩種類型的論文分別有 324 篇（佔2.81%）和 90 篇（佔0.78%）論文獲選，由此可見，本屆會議的熱度、競爭難度與入選獲獎的品質都有所提高。

CVPR 2024 頒獎環節

入圍 CVPR 2024 決賽的最佳論文有24篇，相比去年多了12篇。

AI 科技評論梳理了候選論文的基本情況：

從地理位置上來看，位列前三的國家依次為美國、中國和德國；從研究領域來看，主要聚焦在視覺與圖形、單視圖 3D 重建以及影像與影片合成等；從產業界來看，有三家機構入選，分別是 NAVER Cloud AI、Google Research 以及 NVIDIA；從學術界來看，大學依舊是研究的主要推動力，其中，中國入選的大學有北京大學、上海交通大學、中山大學和深圳大學。

最佳論文

本屆 CVPR 總共評選出 2 篇最佳論文。

第一篇最佳論文屬於Google Research團隊的《Generative Image Dynamics》。

論文連結：https://arxiv.org/pdf/2309.07906

代碼網址：http://generative-dynamics.github.io/

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski

論文介紹：本文通過從真實影片中提取自然振蕩動態的運動軌跡來學習圖像空間中的場景運動先驗。該方法利用傅里葉域對長期運動進行建模，透過單圖像預測頻譜體積，進而生成整個影片的運動紋理，可應用於將靜態影像轉化為迴圈影片，或透過圖像空間模態基實現使用者與真實影響中物體的交互，類比其動態。

第二篇最佳論文頒給了由加州大學聖地牙哥分校、Google Research、南加州大學、劍橋大學及布蘭戴斯大學 5 所機構共同發表的《Rich Human Feedback for Text-to-Image Generation》。

論文連結：https://arxiv.org/pdf/2312.10240

代碼網址：https://github.com/google-research/google-research/tree/master/richhf_18k

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

論文介紹：許多生成的影響仍然存在諸如不真實性、與文字描述不一致以及審美品質低等問題。本文通過選擇高品質的訓練數據進行微調來改進生成模型，或者透過創造帶有預測熱圖的遮罩來修正問題區域。值得注意的是，這些改進可以推廣到用於收集人類回饋數據的影像之外的模型（Muse）。

最佳學生論文

今年的最佳學生論文同樣有2篇獲選。

第一篇頒發給了來自德國圖賓根大學、圖賓根 AI 中心、上海科技大學及布拉格捷克理工大學共同發表的《Mip-Splatting：Alias-free 3D Gaussian Splatting》。

論文連結：https://arxiv.org/pdf/2311.16493

代碼網址：https://github.com/autonomousvision/mip-splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

論文介紹：3D高斯潑濺技術在新視角合成方面取得了高保真度和效率的成果，但在改變採樣率時會出現偽影。為解決該問題，本文引入了基於最大採樣頻率的 3D 平滑濾波器，限制了高斯基元的大小，消除了放大時的高頻率偽影。同時，用 2D Mip 濾波器替代 2D 膨脹，類比 2D 盒濾波器，減輕了混疊和膨脹問題。評估結果顯示，在單尺度訓練和多尺度測試下，該方法有效。

第二篇最佳學生論文頒發給了來自美國俄亥俄州立大學、微軟研究院、加州大學爾灣分校、壬色列理工學院共同發佈的《BioCLlP：A Vision Foundation Model for the Tree of Life》。

論文連結：https://arxiv.org/abs/2311.18803

代碼網址：https://imageomics.github.io/bioclip/

作者：Samuel Stevens, Jiaman （Lisa） Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee （Luke） Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun (Harry) Chao, Yu Su

論文介紹：自然界影像的豐富性為生物資訊學提供了寶貴數據來源。儘管針對特定任務的計算方法和工具不斷湧現，但它們通常不易適應新問題或擴展到不同背景和數據集。為應對這一挑戰，本文創造了 TreeOfLife-10M 數據集，這是迄今為止最大和最多樣化的生物影像數據集。BioCLIP 模型基於生命樹構建，利用 TreeOfLife-10M 的多樣化生物影像和結構化知識，展現出在細粒度生物分類任務中的卓越效能，顯著超越現有基線方法，其內在評估揭示了 BioCLIP 的強泛化能力。

其他獎項

本屆黃煦濤紀念獎由 Andrea Vedaldi 獲得。

Andrea Vedaldi 是牛津大學電腦視覺和機器學習教授，也是 VGG（視覺幾何）組的成員。他的研究重點在於開發電腦視覺和機器學習方法，以自動理解影像和影片内容。此外，他還在 2012 年至 2023 年期間擔任 Facebook AI Research（FAIR）的研究科學家，並在2023年成為 Meta AI 的研究科學家。

影像影片生成佔領主角之位

從近期喬治亞理工學院計算機學院（College of Computing, Georgia Institute of Technology）對 CVPR 2024 採用數據的統計分析來看，論文主要涵蓋36個主題領域，排名前十的主題分別是：影像和影片合成與生成、3D視覺、人體行為識別、視覺、語言與語言推理、低層次視覺、識別（分類、檢測、檢索）、遷移學習與多模態學習。

其中，除了自動駕駛與3D視覺這兩位熱門常客外，今年排在首位的關鍵字是影像和影片合成與生成（Image and video synthesis and generation），總計有 329 篇論文，成為了今年 CVPR 最熱門的研究主題。

熱門主題從去年的擴散模型（Diffusion models）轉變為今年的影像和影片合成與生成，也跟 Sora 在春節打響的開門炮遙相呼應。

在被CVPR採用的影像和影片合成與生成相關論文中，有不少過去幾個月令人驚豔的新科研成果或產品，比如Google DeepMind和Research發表的 Instruct-Imagen。

Instruct-Imagen 是一個能夠處理異構影像生成任務並在未見過的任務上泛化的模型。有趣的是，Google團隊引入了多模態指令生成影像的任務表示，以精確地表達一系列生成意圖，並使用自然語言將不同的模態（例如文字、邊緣、風格、主題等）融合起來，使得豐富的生成意圖可以在統一的格式中標準化。

華東理工大學提出的 DisenDiff 注意校正機制也被選為 Oral 文章，他們目的解決現有的文字到影像（T2I）模型在個人化客製時無法保持視覺一致性和概念交叉影響的問題。

該方法透過引入與類別綁定的學習型修飾符來捕捉多個概念的屬性，並在交叉注意力操作啟動後分離和加強類別，以確保概念的全面性和獨立性。此外，透過抑制不同類別的注意力啟動來減少概念間的相互影響。

實驗結果表明，DisenDiff 在定性和定量評估中均優於現有技術，並能與LoRA和修復管道兼容，提供更豐富的交互體驗。

擴散模型在當下可以說主導了影像生成這個領域，也對於大數據集展現出了強大的縮放性，由 NVIDIA 和 Aalto University 的研究人員撰寫的《Analyzing and Improving the Training Dynamics of Diffusion Models》，關注點在於改進擴散模型的訓練動態。

該篇研究者在不改變 high-level 架構的前提下，識別和糾正了流行的 ADM 擴散模型中的幾個訓練方面不均勻的原因。把 ImageNet 512×512 影像生成任務的 FID 由原來的 2.41 降低到了 1.81，這是一個衡量生成影像品質的重要指標，將生成品質和模型複雜度變得視覺化。

研究者還提出了一種在訓練完成後設定EMA參數的方法，允許在不增加多次訓練成本的情況下精確調整EMA長度，並揭示了其與網路架構、訓練時間和引導的驚人交互作用。

這些突破性的研究，預示著人工智慧在影像生成領域，正在以前所未有的速度重塑藝術創作和視覺上內容生產的邊界。

值得一提的是，今年恰好是生成式對抗網路（GANs）誕生的十周年。2014年，Ian Goodfellow等人提出了深度學習領域的此項里程碑技術，不僅開闢了生成式模型的新領域，而且對無監督學習產生了深遠影響。

視覺基礎模型點燃現場

基於 Transformer，以及受到語言大模型的啟發，電腦視覺領域在 2023 年以來對視覺基礎模型（VFM）的研究熱情高漲。

視覺基礎模型（VFM），一般在特定的領域，像影像分類、目標檢測和影像生成等眾多下游任務中表現突出。例如，多模態 CLIP 模型擅長零樣本視覺語言理解，自監督學習模型DINOv2 擅長語意分割，自監督學習方法SAM 擅長開放詞彙實例分割。

CVPR 2024 共有 123 個 workshop 與 24 場 tutorial，在這個年度盛會的現場，AI 科技評論觀察到：儘管視覺基礎模型的相關工作在被採用論文數量中的佔比不大，但超過 10 場研討會以視覺基礎模型為主題，開啟了學習和應用視覺基礎模型最先進方法的討論。

比如 6 月 17 日舉行的第二屆基礎模型研討會上，出席者分享了視覺基礎模型和大語言模型的理論洞察、高效率架構設計以及卷積和圖混合網路設計的研究，並探討了在影像和影片生成、不同監督學習設置、多模態模型等，還討論了如何將基礎模型的研究成果應用於醫療、地球科學、遙感、生物、農業和氣候科學等多個領域，以彌合研究與實際應用之間的差距。

在「視覺基礎模型最新進展」的分享會中，嘉賓們討論了用於多模態理解和生成的視覺基礎模型，基準測試和評估視覺基礎模型，以及基於視覺基礎模型的智慧體和其他系統。

分享嘉賓：Tiktok-Chunyuan Li

自 2020 年引入視覺 Transformers（ViT）以來，電腦視覺界見證了基於 Transformer 的電腦視覺模型的爆炸性增長，其應用範圍從影像分類到密集預測（如目標檢測、分割）、影片、自監督學習、3D和多模態學習。

因此，CVPR 2024 中的第三屆視覺 Transformer 研討會將會議重點放在了為視覺任務設計 Transformer 模型的機會和其開放性挑戰之中。

機器遺忘（Machine Unlearning，也稱遺忘學習）對基礎模型的重要性同樣不言而喻，專注於從預訓練模型中剔除那些不再需要的數據，如個人隱私資訊或違反法規的數據，並確保模型繼續發揮其應有的功能而不受影響，因此 CVPR 2024 中也有研討會集中討論視覺基礎模型中機器遺忘的運用。

而 3D 基礎模型的發展正成為自然語言處理和 2D 視覺之後的又一場技術革命，預期著在 3D 內容創作、AR/VR、機器人技術和自動駕駛等領域的廣泛應用前景。CVPR 2024 的研討會還邀請了 3D 視覺領域的專家，共同探討 3D 基礎模型的構建，包括數據集的選擇、模型應針對的3D任務、架構共識以及潛在應用。

此外，基礎模型還被視為建構更通用自主系統的新路徑，因其能夠從大量數據中學習並泛化到新任務。 CVPR 2024 中有研討會關注自主系統，探究基礎模型對自主代理的潛力，與會者們認為未來在於可解釋的、端到端的模型，這些模型能夠理解世界並泛化到未訪問的環境中。

CVPR 2024 的現場中還有研討會探討了對抗性機器學習的最新進展和挑戰，重點關注基礎模型的穩健性，該 workshop 還組織了一場針對基礎模型的對抗性攻擊挑戰。

有的研討會則聚焦於醫學成像領域基礎模型的結果和應用，討論涵蓋了各種醫學數據的最新技術，如心臟超音波、眼底、病理學和放射學，以及在臨床環境中使用基礎模型的實際挑戰。

寫在最後

兩天前，Runway 時隔一年推出 Gen-3 Alpha，宣布影片生成賽道王者歸來。在 CVPR 2024 的現場，AI 科技評論也聽到了關於 GPT-5 或於 3 個月後發佈的消息，業內對其推理能力與多模態能力更是抱以期待。

那麼，電腦視覺還有哪些熱點會是未來趨勢？影像、影片生成與視覺基礎模型的下一步發展在哪裡？ 3D 視覺、自動駕駛等往屆「花旦」又有何新動態？機器人與具身智慧有無新亮點？

讓我們一起期待，CVPR 2024 的精彩仍在繼續。

本文為雷鋒網授權刊登，原文標題為「超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文」