VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net ArchitectureAutoEncoder-based voice conversion은 speaker identity와 input speech content를 disentangle 하여 unseen speaker에 대해 generalize 됨- BUT, imperfect disentanglement로 인해 합성 품질의 한계가 있음VQVC+AutoEncoder-based system에 대해 U-Net architecture를 도입해 conversion 품질을 향상Strong information bottleneck을 위해 latent vector를 quantize 하는 vector quant..
One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance NormalizationSource, target speaker의 example utterance만으로 voice conversion을 수행할 수 있어야 함AdaIN-VCInstance Normalization을 도입해 speaker, content representation을 disentanlging 함Unseen speaker에 대해 one-shot voice conversion이 가능논문 (INTERSPEECH 2019) : Paper Link1. IntroductionVoice Conversion (VC)는 linguistic conten..
AGAIN-VC: A One-Shot Voice Conversion Using Activation Guidance and Adaptive Instance NormalizationVoice Conversion은 일반적으로 disentangle-based learning을 사용하여 speaker와 linguistic content를 분리한 다음, speaker information을 target speaker로 변환하는 방식을 활용함AGAIN-VCActivation guidance와 Adaptive Instance Normalization을 도입해 speaker information의 유출을 방지Single encoder-decoder로 구성되어 합성 품질과 speaker similarity를 향상 논문 (..
EmoQ-TTS: Emotion Intensity Quantization for Fine-Grained Controllable Emotional Text-to-SpeechEmotional text-to-speech를 위해 대부분은 emotion label이나 reference audio에 의존함- BUT, utterance-level emotion condition으로 인해 expression이 monotonous 하다는 한계가 있음EmoQ-TTSFine-grained emotion intensity와 phoneme-wise emotion information을 conditioning하여 expressive speech를 합성Emotion intensity는 human labeling 없이 distanc..
QI-TTS: Question Intonation Control for Emotional Speech SynthesisExpressive text-to-speech는 intonation과 같은 fine-grained style이 무시되는 경우가 많음QI-TTSReference speech의 emotion을 transfer 하면서 questioning intonation을 효과적으로 deliver 하기 위해 2가지의 서로 다른 level에서 style embedding을 추출하는 multi-style extractor를 활용Fine-grained intonation control을 위해 relative attribute를 통해 syllable level에서 intonation intensity를 repre..
AILTTS: Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-Speech기존의 text-to-speech는 mel-spectrogram과 같은 pre-defined feature에 의존하여 intermediate latent representation을 학습하므로 생성 품질의 한계가 있음AILTTSLatent representation에 prosody embedding을 추가하여 합성 품질을 향상Training 중에 mel-spectrogram에서 reference prosody embedding을 추출하고, 추론 시에는 Generative Adversarial Network를 사용하여 tex..
Multi-SpectroGAN: High-Diversity and High-Fidelity Spectrogram Generation with Adversarial Style Combination for Speech Synthesis일반적으로 text-to-speech에서 adversarial feedback 만으로는 generator를 training 하는데 충분하지 않으므로 추가적인 reconstruction loss가 요구됨Multi-SpectroGANGenerator의 self-supervised hidden representation을 conditional discriminator로 conditioning 하여 adversarial feedback만으로 model을 training 함추가적으로 u..
CLAPSpeech: Learning Prosody form Text Context with Contrastive Language-Audio Pre-trainingExpressive text-to-speech를 위한 masked token reconstruction은 prosody를 효과적으로 모델링하는 것이 어려움CLAPSpeech서로 다른 context에서 동일한 text token의 prosody variance를 explicitly learning 하는 cross-modal contrastive pre-training framework를 활용Encoder input과 contrastive loss를 설계하여 joint multi-modal space에서 text context와 해당 prosody..
STEN-TTS: Improving Zero-Shot Cross-Lingual Transfer for Multi-Lingual TTS with Style-Enhanced Normalization Diffusion FrameworkMultilingual text-to-speech는 주로 fine-tuning을 활용하거나 personal style을 추출하는데 중점을 둠STEN-TTS3초의 reference 만으로 multilingual 합성을 수행하고 style을 유지하는 Style-Enhanced Normalization (STEN)을 도입추가적으로 diffusion model에 해당 STEN module을 결합하여 style을 simulate 함논문 (INTERSPEECH 2023) : Paper Li..