盲源分離是指僅利用傳聲器接收到的信號把各個源信號恢復出來。音頻信號的盲源分離最初是為解決「雞尾酒會問題」發展起來,它在人機語音交互、自動會議紀要、人聲和配樂分離等方面有潛在的重要應用價值。目前,流行的音頻盲源分離算法例如頻域ICA(independent component analysis)、頻域IVA(independent vector analysis)和ILRMA(independent low-rank matrix analysis)等都是依賴於秩1的空間模型。該模型基於窄帶假設,也就是短時傅里葉變換的窗長遠大於混響時間。當混響時間變長時,上述這類盲源分離算法的性能嚴重下降。為了解決該問題,FCA(full-rank covariance matrix analysis)、MNMF(multichannel nonnegative matrix factorization)和Fast MNMF等算法將空間模型強制約束為一個滿秩的矩陣,並在強混響環境下取得了性能的提升。但是,滿秩空間模型只是數學上的一個假設,缺乏明確的物理意義和嚴格的數學推導。近期,中科院聲學所噪聲與音頻聲學實驗室的博士生王泰輝和導師楊飛然研究員、楊軍研究員提出了一種基於頻域卷積傳遞函數的盲源分離框架。不同於以往廣泛採用的窄帶假設,他們利用頻域卷積傳遞函數模型來建模時域的線性卷積,建立了一種全新的音頻盲源分離框架。研究人員證明上述滿秩空間模型可以利用所提新框架和聲源信號慢變化這一近似條件推導出來,解釋了滿秩模型在強混響場景性能較好的原因。基於所提框架,研究人員還提出了一種新的多通道非負矩陣分解算法。實驗證實這種超定盲源分離算法在強混響場景下比當前的盲源分離算法(ILRMA和FastMNMF)具有更好的分離性能和語音質量。該項研究為解決強混響條件下的音頻盲源分離提供了一個新思路。
圖1 兩聲源分離實驗中在混響時間Rt60=470毫秒時不同算法的SDR提升。短時傅里葉變換窗長為(a) 64毫秒,(b) 128毫秒,(c) 256毫秒。(圖/中科院聲學所)
圖2 兩聲源分離實驗中在混響時間Rt60=1300毫秒時不同算法的SDR提升。短時傅里葉變換窗長為(a) 64毫秒,(b) 128毫秒,(c) 256毫秒。(圖/中科院聲學所)本研究獲得了國家自然科學基金面上項目、中國科學院青年創新促進會和中國科學院聲學研究所自主部署「前沿探索」類項目資助。相關研究成果於2022年1月在線發表於國際期刊IEEE/ACM Transactions on Audio, Speech, and Language Processing。T. Wang, F. Yang, and J. Yang, 「Convolutive transfer function-based multichannel nonnegative matrix factorization for overdetermined blind source separation,」IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 30, pp. 802–815, Jan. 2022. DOI:10.1109/TASLP.2022.3145304.https://ieeexplore.ieee.org/abstract/document/969315621dB聲學人是中國科學院聲學研究所蘇州電聲產業化基地旗下科技媒體,專注於聲學新技術、音頻測試與分析、聲學市場調研、聲學學習社群建設等。
鑽石舞台 發表在 痞客邦 留言(0) 人氣()