本發(fā)明提供一種聲源分離方法及裝置,所述方法包括:獲取視頻幀圖像中的視覺(jué)引導特征;將第一混疊多聲源聲譜圖和所述視覺(jué)引導特征輸入訓練好的預測編碼循環(huán)卷積神經(jīng)網(wǎng)絡(luò )模型,獲取第一掩膜圖;根據所述第一混疊多聲源聲譜圖和所述第一掩膜圖,獲取分離的聲音信號。本發(fā)明通過(guò)將視覺(jué)引導特征和混疊多聲源聲譜圖輸入訓練好的預測編碼循環(huán)卷積神經(jīng)網(wǎng)絡(luò )模型預測各聲音分量的掩膜圖,然后利用掩膜圖和混疊多聲源聲譜圖獲取分離的聲音信號,實(shí)現聲譜圖和視覺(jué)引導特征在同一網(wǎng)絡(luò )模型中進(jìn)行處理,網(wǎng)絡(luò )模型規模小,且視覺(jué)特征和聲音特征能夠漸進(jìn)式的有效融合,提高了聲源分離的精度。


