[Paper 리뷰] Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-End Emotional Speech Synthesis
Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-End Emotional Speech Synthesis End-to-End 방식은 acoustic model과 vocoder를 개별적으로 training 하는 cascade 방식보다 더 우수한 text-to-speech 성능을 달성할 수 있음 - BUT, dataset에 다양한 prosody나 emotional attribute가 포함되어 있는 경우 audible artifact와 unstable pitch를 생성하는 경우가 많음 Period VITS Unstable pitch 문제를 해결하기 위해 explicit periodicity generator를 사용하는 end-..
2024. 4. 3. 11:17