STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning ModelsTransformer-based Speech Self-Supervised Learning model은 large parameter size와 computational cost를 가짐STaRSpeech temporal relation을 distilling 하여 Speech Self-Supervised Learning model을 compress특히 speech frame 간의 temporal relation을 transfer 하여 lightweight student를 얻음논문 (ICASSP 2024) : Paper Link1. Intro..
Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking DistillationHuBERT와 같은 Speech Self-Supervised Learning model은 상당한 parameter 수를 가짐ARMHuBERTTransformer layer에 대해 attention map을 reuse 하여 model을 compressStudent model의 representation quality를 향상하기 위해 masking distillation strategy를 도입논문 (INTERSPEECH 2023) : Paper Link1...
EATS-Speech: Emotion-Adaptive Transformation and Priority Synthesis for Zero-Shot Text-to-Speech기존의 zero-shot Text-to-Speech는 emotion을 효과적으로 반영하지 못함EATS-SpeechSpeech를 non-emotion style, emotion, content로 decompose 하는 parallel pipeline을 활용LLM-based converter를 통해 reference speech에서 text-emotion mapping을 학습논문 (INTERSPEECH 2025) : Paper Link1. IntroductionZero-Shot Text-to-Speech (TTS)는 speaker-spec..
FasterVoiceGrad: Faster One-Step Diffusion-based Voice Conversion with Adversarial Diffusion Conversion DistillationDiffusion-based Voice Conversion model은 iterative sampling으로 인해 상당히 느림FasterVoiceGradAdversarial Diffusion Conversion Distillation을 통해 diffusion model과 content encoder를 distill특히 효과적인 distillation을 위해 adversarial distillation, score distillation training을 활용논문 (INTERSPEECH 2025) : ..
FastVoiceGrad: One-Step Diffusion-based Voice Conversion with Adversarial Conditional Diffusion DistillationDiffusion-based Voice Conversion은 multi-step reverse diffusion으로 인해 추론 속도가 느림FastVoiceGrad기존 voice conversion model의 성능을 유지하면서 multi-step iteration을 one-step으로 reduce이를 위해 Adversarial Conditional Diffusion Distillation을 도입하고 sampling 시 initial state를 reconsidering논문 (INTERSPEECH 2024) : Pa..
TS3-Codec: Transformer-based Simple Streaming Single Codec대부분의 neural audio codec은 convolution을 기반으로 함TS3-CodecTransformer와 linear layer로만 구성된 simple streaming single codecConvolution layer를 fully eliminate 하여 simplicity와 expressiveness를 향상논문 (INTERSPEECH 2025) : Paper Link1. IntroductionNeural Audio Codec (NAC)는 audio signal을 discretized code로 compress 하는 것을 목표로 함특히 NAC는 AudioLM, VALL-E 등의 Spee..
AF-Vocoder: Artifact-Free Neural Vocoder with Global Artifact FilterGenerative Adversarial Network 기반의 vocoder는 audible artifact로 인한 합성 품질의 한계가 있음AF-VocoderArtifact removal을 위해 frequency-domain artifact filter인 GAFilter를 도입GAFilter는 frequency control을 위해 desired inductive bias를 enforce 함논문 (INTERSPEECH 2025) : Paper Link1. IntroductionVocoder는 acoustic feature를 speech waveform으로 변환하는 것을 목표로 함특히 ..
APTTS: Adversarial Post-Training in Latent Flow Matching for Fast and High-Fidelity Text-to-SpeechFlow matching 기반의 Text-to-Speech model은 sampling step에 의존적임APTTSAdversarial post-training strategy를 도입해 sampling step 수를 절감 Pre-trained flow matching model을 few-step generator로 취급하고 reconstruction, adversarial objective를 통해 optimization을 수행논문 (INTERSPEECH 2025) : Paper Link1. IntroductionZero-shot T..
비정상성을 향한 부활의 드리프트: The Strokes - - Released : 2020.04.10.- Genres : Post-Punk Revival, New Wave 비정상성은 언제나 정상성으로 회귀한다. 불꽃같은 상승도, 끝없는 추락도 결국에는 반전되기 마련이다. 하지만 정상화로 찾아온 그러한 평온마저도 마냥 해피엔딩인 것만은 아니다. 지루한 안정의 관성은 남모를 반발심을 키우고, 변화 없는 패러다임은 곧 매너리즘을 낳기 때문이다. 그렇기에 우리는 단조로움 속에서 지난날을 반추하고 한편으로는 꺾여버린 광란의 황금기를 그리워하며, 새로운 비정상성의 탄생을 남몰래 고대하는 것일지도 모른다. 대중음악에서도 기존 체제의 붕괴와 개성의 상실, 패러다임의 교체는 꾸준히 반복되어 왔다. 그중에서도 가장 극적..
