SFM-TTS: Lightweight and Rapid Speech Synthesis with Flexible Shortcut Flow MatchingFlow matching Text-to-Speech model은 small step에서 generation quality가 떨어짐SFM-TTSStandard Gaussian distribution을 linear interpolation을 통해 ground-truth distribution으로 transform추가적으로 Fast Linear Attention을 활용해 parameter 수를 절감논문 (ICASSP 2026) : Paper Link1. IntroductionFlow Matching은 noise에서 data로의 continuous-time tra..
STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs기존의 neural codec은 semantic information을 효과적으로 preserve 하지 못함STACodecSelf-Supervised Learning model의 semantic information을 Semantic Token Assignment를 통해 Residual Vector Quantization의 first layer에 integrate추가적으로 Semantic Pre-Distillation module을 활용해 semantic tokenizer 의존성을 제거논문 (ICASSP 2026)..
NCF-TTS: Enhancing Flow Matching based Text-to-Speech with Neighborhood Consistency FlowDiffusion-based Text-to-Speech는 추론 속도의 한계와 guidance method에 대한 incompatibility가 존재함NCF-TTSLarge-step sampling을 stablize 하는 Neighborhood Consistency Flow를 활용Conditional, unconditional supervision을 training process로 unify 하는 embedded guidance objective를 도입하고 flow matching supervision과 NCF consistency loss를 join..
GLA-Grad++: An Improved Griffin-Lim Guided Diffusion Model for Speech SynthesisDiffusion vocoder는 computational cost와 mismatched distribution에 대한 robustness의 한계가 있음GLA-Grad++Griffin-Lim과 reverse process를 integrate 하여 generated signal과 mel-spectrogram 간의 inconsistency를 완화추가적으로 correction을 적용하여 phase-awareness를 개선논문 (ICASSP 2026) : Paper Link1. IntroductionWaveGrad, DiffWave와 같은 diffusion-based vo..
이달의 슈게이즈 4회 - 26년 4월 * 업로드 당일 기준 작성자 레이더망에 걸린 것들만 올리니 놓치는게 있을 수도 있습니다. 1. 저무는 4월의 봄 지난 17일, AprilBlue가 8월의 시부야 WWW 공연을 끝으로 활동을 마무리한다는 소식을 밝혔습니다. 나름 7년 가까이 활동한 중견밴드기도하고 불화보다는 박수칠 때 떠난다는 결정으로 보입니다만, 그만큼 뜻밖의 소식이라 조금 당황스럽긴 하네요. 아무튼 For Tracy Hyde에 이어 AprilBlue도 정리된 시점에서, Azusa Suga의 다음 행보는 새 밴드가 될지 아니면 꽤 롱런하고 있는 RAY와 Ponderosa May Bloom에 집중하게 될지 궁금해지네요.AprilBlue - 'AprilBlue'2. 도쿄의 구세대 vs 나고야의 신세대 A..
SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector RegularizationContrastive Language-Audio Pre-training에서 negative sample에 의한 pushing force의 perpendicular component는 trajectory drift와 training instability로 이어질 수 있음SupCLAPPerpendicular component를 control 하기 위해 Support Vector Regularization을 도입Semantic radius를 위해 direct parameterization과 adap..
