讓機器像人一樣聽音樂，Facebook開源Demucs項目

（示意圖/取自pixabay）

音樂源分離，是利用技術將一首歌曲分解成它的組成成分，如人聲、低音和鼓。這和人類大腦的工作很類似，大腦可以將一個單獨的對話，從周圍的噪音和一屋子的人聊天中分離出來。

如果你擁有原始的錄音室多軌錄音，這很容易實現，你只需調整混音來分離一個音軌。但是，如果你從一個普通MP3音訊檔案開始，所有的樂器和聲音，都被混合到一個立體聲錄音中，即使是最複雜的軟體程式，也很難精確地挑出一個部分。

Facebook AI的研究人員已經開發了一個系統，可以做到這一點，而且精確度高得驚人。

創建者名叫Alexandre Defossez，是Facebook人工智慧巴黎實驗室的科學家。Defossez的系統被稱為Demucs，這個名字來源於「音樂資源深度提取器」，其工作原理是檢測聲波中的複雜模式，對每種樂器或聲音的波形模式，建立一個高層次的理解，然後利用人工智慧將它們巧妙地分離開來。

Defossez說，像Demucs這樣的技術，不僅能幫助音樂家學習複雜的吉他即興重複段落；總有一天，它還能讓人工智慧助理在嘈雜的房間裡，更容易聽到語音指令。

Defossez說，他的目標是讓人工智慧系統擅長辨識音訊源的組成部分，就像它們現在可以在一張照片中，準確區分不同的物體一樣。「我們在音訊方面還沒有達到同樣的水平。」他說。

分解聲波的更好方法

聲源分離長期以來一直吸引著科學家。1953年，英國認知科學家Colin Cherry，創造了「雞尾酒會效應」這個詞語，用來描述人類在擁擠嘈雜的房間裡，專注於一次談話的能力。

工程師們首先試圖通過調整立體聲錄音中的左右聲道，或調整等化器設置來提高或降低某些頻率，從而隔離歌曲的人聲或吉他聲。

基於聲譜圖的人工智慧系統，在分離出以單一頻率響起或共振的樂器的音符方面相對有效，例如鋼琴或小提琴旋律。

這些旋律在聲譜圖上顯示為清晰、連續的水平線。但是隔離那些產生殘餘噪音的撞擊聲，比如鼓、低音拍擊，是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件，但它實際上包含了不同的部分。對於鼓來說，它包括覆蓋較高頻率範圍的初始撞擊，隨後是在較低頻率範圍內的無音高衰減。Defossez說，一般的小鼓「就頻率而言，到處都是」。

聲譜圖只能將聲波表現為時間和頻率的組合，無法捕捉到這樣的細微差別。因此，他們將鼓點或拍子低音處理成幾條不連續的垂直線，而不是一個整齊、無縫的聲音。這就是為什麼通過聲譜圖分離出來的鼓和低音軌道，聽起來常常是模糊不清的。

足夠聰明的系統來重建缺失

基於人工智慧的波形模型避免了這些問題，因為它們不試圖將一首歌放到時間和頻率的僵化結構中。Defossez解釋說，波形模型的工作方式與電腦視覺相似，電腦視覺是人工智慧的研究領域，旨在讓電腦學會從數位圖像中辨識模式，從而獲得對視覺世界的高級理解。

電腦視覺使用神經網路來檢測基本模式，類似於在圖像中發現角落和邊緣，然後推斷更高級或更複雜的模式。

「波形模型的工作方式非常相似。」Defossez說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率，人聲、低音、鼓或吉他，並為每一個元素生成單獨的波形。然後，它開始推斷更高比例的結構，以增加細微差別，並精細雕刻每個波形。

Defossez說，他的系統也可以比作探測和記錄地震的地震儀。地震時，地動儀的底座會移動，但懸掛在上面的重物不會移動，這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同的地震，然後推斷出每個地震的震級和強度的細節。同樣，笛福茲的系統分析並分離出一首歌曲的本來面目，而不是根據預先設定的聲譜圖結構來分割它。

笛福茲解釋說，建構這個系統需要克服一系列複雜的技術挑戰。

他首先使用了Wave-U-Net（https://github.com/f90/Wave-U-Net）的底層架構，這是一個為音樂源分離開發的早期人工智慧波形模型。但是他有很多工作要做，因為聲譜圖模型的表現優於Wave-U-Net。他通過添加線性單元，來微調波形網路中分析模式的算法參數。Defossez還增加了長短期記憶，這種結構允許網路處理整個數據序列，如一段音樂或一段影片，而不僅僅是一個數據點，如圖像。Defossez還提高了Wave-U-Net的速度和內存使用率。

這些修改幫助Demucs在一些重要方面勝過Wave-U-Net，比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛，引擎噪音會淹沒一個人的聲音，」Defossez說。

以前的波形模型，通過簡單地移除原始音訊源文件的一部分，來處理這個問題，但是它們不能重建丟失材料的重要部分。Defossez增強了Demucs解碼器的能力，「Demucs可以重新創建它認為存在但卻迷失在混音中的音訊。」這意味著他的模型可以重新合成，可能被響亮的鐃鈸聲丟失的柔和鋼琴音符，因為它理解應該呈現什麼樣的聲音。

這種重構和分離的能力，使Demucs比其他波形模型有優勢。Defossez說，Demucs已經與最好的波形技術相匹配，並且「遠遠超出」最先進的聲譜技術。

在盲聽測試中，38名參與者從50首測試曲目中，隨機抽取8秒鐘進行聽音，這50首曲目由三個模型分開：Demucs、領先波形、頻譜圖技術。聽眾認為Demucs在品質和無偽影（如背景噪音或失真）方面表現最佳。

Demucs已經引起了人工智慧愛好者的興趣，精通技術的讀者，可以從GitHub下載Demucs的代碼（https://github.com/facebookresearch/demucs）。代碼用MusDB數據集來分離音樂源。

Defossez解釋說，隨著Demucs的發展，它將為人們在家中創作音樂的數位音訊工作站，帶來聲音的真實性。這些工作站，提供了能夠喚起特定時代或風格的合成儀器，通常需要對原始硬體，進行大量的數位化改造。

想像一下，如果音樂源分離技術，能夠完美地捕捉20世紀50年代搖滾歌曲中，用電子管放大器演奏的老式空心體電吉他的聲音。Demucs讓音樂愛好者和音樂家，離這一能力更近了一步。

本文為雷鋒網授權刊登，原文標題為「讓機器像人一樣聽音樂，Facebook開源Demucs項目」