KALL-E: Autoregressive Speech Synthesis with Next-Distribution PredictionText-to-Speech를 위해 autoregressive language model을 활용할 수 있음KALL-EFlow-VAE를 활용하여 waveform으로부터 continuous latent speech representation을 추출Single AR Transformer를 통해 text로부터 해당 continuous speech distribution을 predict논문 (AAAI 2026) : Paper Link1. IntroductionVALL-E와 같이 Text-to-Speech (TTS)를 위해 Large Language Model (LLM)을 활용할 수 있음..
DegVoC: Revisiting Neural Vocoder from a Degradation Perspective기존의 neural vocoder는 performance-cost trade-off가 존재함DegVoCMel-spectrogram을 target spectrum으로부터의 signal degradation process로 취급Degradation prior를 활용하여 simple linear transformation을 통해 initial spectral structure를 retrieve 하고 time-frequency domain에서 heterogeneous distribution을 고려한 deep prior solver를 도입논문 (AAAI 2026) : Paper Link1. Intro..
이달의 슈게이즈 3회 - 26년 3월 * 업로드 당일 기준 작성자 레이더망에 걸린 것들만 올리니 놓치는게 있을 수도 있습니다. 1. 보컬로이드 침공 Nerdneko와 路傍の石(Robounoishi)가 선보이는 보카게이즈(Vocagaze) 앨범들로 3월의 이달슈를 열어봅시다. 먼저 Nerdneko는 지난 20일 하이톤의 미쿠 목소리와 음울한 소음이 부딪히는 신규 EP 를 들고 왔습니다. 한편 路傍の石는 이번 한 달 동안 12곡씩 꽉꽉 채운 정규 앨범을 2개나(, ) 공개했는데, 이거야 말로 성대 혹사를 걱정하지도 않아도 되는 보컬로이드의 장점이 아닐까 싶네요.Nerdneko - 'Never Mind'路傍の石 - '明日に向かって撃て!'2. 드림팝 싱글들 보카게이즈로 오프닝을 열었으니 소음 공해(?)에 지친 ..
MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech SynthesisEnd-to-End Text-to-Speech를 위해 joint Transformer-Diffusion framework를 활용할 수 있음MELA-TTSLinguistic, speaker condition으로부터 continuous mel-spectrogram을 autoregressively generateTransformer decoder의 output representation을 pre-trained ASR encoder의 semantic embedding과 align 하는 representation alignment module을 도..
Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech CodingSpeech codec은 acoustic fidelity와 semantic preservation 간의 inherent confilct가 존재함SimWhisper-CodecSemantically-capable model을 high-fidelity acoustic reconstruction에 대해 adapt특히 frozen, simplified Whisper encoder를 활용하여 external supervision 없이 semantic, acoustic preservation을 balancing논문 (ICASSP 2026) : Paper Link1. Intro..
Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech SynthesisFlow-matching-based Text-to-Speech model은 cross-lingual task에 적용하기 어려움Cross-Lingual F5-TTSForced alignment를 활용하여 audio prompt를 pre-process 해 word boundary를 얻어 audio prompt로부터 direct synthesis를 수행Duration modeling을 위해 다양한 linguistic granularity를 가지는 speaking rate predictor를 도입논문 (ICASSP 2026) : Paper Link1. Introduc..
