
MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec TransformerLarge-scale text-to-speech system은 autoregressive/non-autoregressive 방식으로 나눌 수 있음- Autoregressive 방식은 robustness와 duration controllability 측면에서 한계가 있음- Non-auotregressive 방식은 training 중에 text, speech 간의 explicit alignment information이 필요함MaskGCTText, speech supervision 간의 explicit alignment information과 phone-level duratio..

RepCodec: A Speech Representation Codec for Speech TokenizationDiscrete speech tokenization은 large language model에서 유용하게 활용되지만 discretization으로 인해 information loss가 발생함RepCodecSpeech encoder에서 speech representation을 reconstruction 하여 vector quantization codebook을 학습Speech encoder, Codec encoder, Vector quantization codebook으로 구성된 pipeline을 통해 speech waveform을 semantic token으로 변환논문 (ACL 2024) : P..

BnTTS: Few-Shot Adaptation in Low-Resource SettingLow-resource language에 대한 text-to-speech model이 필요함BnTTSXTTS architecture를 기반으로 하는 speaker adaptation-based text-to-speech modelLow-resource language의 phonetic, linguistic character를 반영하도록 multilingual pipeline에 integrate 함논문 (NAACL 2025) : Paper Link1. IntroductionText-to-Speech (TTS)에서 zero-shot, one-shot adaptation은 여전히 한계가 있음대표적인 zero-shot TT..

Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised DisentanglementVoice imitation은 annotated data에 크게 의존하고 timbre/style을 disentangle 하는데 어려움이 있음VevoContent-Style Modeling을 통해 text/speech content token을 input으로 하고 style reference로 prompt 되는 content-style token을 생성Acoustic Modeling을 통해 content-style token을 기반으로 flow-matching transformer를 사용해 timbre reference로 prompt 되는 acoustic repr..

ProsodyFlow: High-Fidelity Text-to-Speech through Conditional Flow Matching and Prosody Modeling with Large Speech Language ModelsText-to-Speech에서 diverse, natural prosody를 반영하는 것은 여전히 한계가 있음ProsodyFlowLarge self-supervised speech model과 conditional flow matching을 결합해 prosodic feature를 modelingSpeech LLM을 통해 acoustic feature를 추출하고 해당 feature를 prosody latent space에 mapping 한 다음, conditional flow ..

쌓아온 기억들의 총화: 여자친구 - - Released : 2025.01.13.- Generes : K-Pop 사랑은 매개체가 필요하다. 절대 혼자서는 완성되지 못하며 무엇보다도 비로소 활활 타오르기 위해서는 그 두터운 장작을 불태울 발화점이 필요한 법이다. 혹여 누군가는 짝사랑을 이야기하겠지만, 그마저도 아무런 근거도 없이 자연발화하지는 않는다. 어떤 형태로든 미묘한 찰나가 쌓여 하루의 감정을 만들고 그 감정은 그동안 쌓인 기억들을 불태울 명백한 불씨가 되기 때문이다. 그렇기에 약 5년 만에 컴백한 여자친구의 신보 역시, 지난 공백기 동안 쌓여온 애틋함을 불태울 매개체로써 자연스럽게 '기억'을 택한다. 그리고 이러한 특징은 그들의 데뷔작인 를 연상시키는 듯한 (이하 )라는 신보 제목에서부터 적나라하..