多模型融合的VoxSRC22說話人日志系統(tǒng)
摘要: 為有效解決“誰在什么時(shí)候說話”的問題,提出一種說話人日志方法。該方法由六個(gè)模塊組成,包括語音活動(dòng)檢測(voice activity detection,VAD)、語音增強(qiáng)、說話人嵌入提取器、說話人聚類、重疊語音檢測(overlapping speech detection,OSD)和結(jié)果融合。利用語音增強(qiáng)技術(shù)可以改善語音活動(dòng)檢測的性能。有效地結(jié)合不同的說話人嵌入提取器和聚類算法... (共9頁)
說話人日志 語音活動(dòng)檢測 聲紋嵌入 說話人聚類 結(jié)果融合
開通會(huì)員,享受整站包年服務(wù)