KALL-E: Autoregressive Speech Synthesis with Next-Distribution PredictionText-to-Speech를 위해 autoregressive language model을 활용할 수 있음KALL-EFlow-VAE를 활용하여 waveform으로부터 continuous latent speech representation을 추출Single AR Transformer를 통해 text로부터 해당 continuous speech distribution을 predict논문 (AAAI 2026) : Paper Link1. IntroductionVALL-E와 같이 Text-to-Speech (TTS)를 위해 Large Language Model (LLM)을 활용할 수 있음..
RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTSEmotion contorl과 같은 nuanced task에서 기존의 reward optimization method는 reward hacking 문제가 발생함RRPOHybrid regularization을 활용하여 reward signal이 reliably align 되도록 유도특히 policy가 detrimental shortcut을 abandon 하고 emotion의 complex feature를 학습하도록 함논문 (ICASSP 2026) : Paper Link1. IntroductionCosyVoice2와 같이 Large Language Model (LLM)을 활용하면 우수한 T..
Efficient Speech Language Modeling via Energy Distance in Continuous Latent SpaceSpeech language model은 discretization으로 인한 한계가 있음SLEDSpeech waveform을 continuous latent representation의 sequence로 encodingEnergy distance objective를 사용하여 autoregressive modeling을 수행논문 (NeurIPS 2025) : Paper Link1. IntroductionSpeech audio는 integer/floating-point range내의 value를 가지는 lengthy sampling point sequence로 re..
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free GuidanceAutoregressive speech token generation model은 hallucination과 undesired vocalization의 문제가 있음Koel-TTSPreference alignment와 Classifier Free Guidance를 활용하여 Language Model의 contextual adherence를 향상특히 speech recognition model에서 derive 된 automatic metric을 사용하여 model output을 rank 하고 conditional, uncondi..
EmoVoice: LLM-based Emotional Text-to-Speech Model with Freestyle Text PromptingText-to-Speech model은 여전히 emotional expression 측면에서 한계가 있음EmoVoiceLarge Language Model을 활용하여 fine-grained freestyle natural language emotion control을 지원Phoneme token과 audio token을 parallel output 하여 content consistency를 향상논문 (MM 2025) : Paper Link1. IntroductionEmotion-contorllable Text-to-Speech (TTS) model은 emotion..
PALLE: Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech SynthesisZero-Shot Text-to-Speech에서 autoregressive model은 generation speed, non-autoregressive model은 temporal modeling의 한계가 있음PALLEAutoregressive의 explicit temporal modeling과 non-autoregressive의 parallel genertion을 combine 한 pseudo-autoregressive approach를 도입Two-stage framework를 기반으로 first stage에서는 ..
