반응형
[Paper 리뷰] SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross AttentionZero-shot voice conversion은 unseen target speaker로의 변환을 수행할 수 있지만, speaker similarity 측면에서 한계가 있음SEF-VCSpeaker embedding을 사용하지 않고 Position-Agnostic Cross-Attention을 도입하여 reference speech에서 speaker timbre를 학습이후 HuBERT semantic token으로부터 non-autoregressive 방식으로 waveform을 reconstruct논문 (ICASSP 2024) : Paper Link1. Introdu..
Paper/Conversion
2024. 8. 15. 09:26
반응형