PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model FusionFlow-matching Text-to-Speech model은 stability-naturalness trade-off, cross-lingual voice cloning의 어려움, low-rate mel-feature에 대한 합성 품질의 한계가 존재함PFluxTTSInference-time vector-field fusion을 통해 duration-guided, alignment-free model을 combine 하는 dual-decoder design을 도입FLUX-based decoder의 speech pro..
The Otals - All Imperfect Summerland Tour in Nagoya- Date: 2026.02.23.- Location: Japan, Aichi, Nagoya, Club Zion 이런저런 음악 글들에서 알아보셨는지는 모르겠지만, 개인적으로 Weezer, Ride, Sugar 이 세 밴드에 큰 영향을 받은 사람으로서 청량하고 직관적인 기타-팝 사운드를 광적으로(?) 추구하는 편입니다. 그래서 4-5년 전 디깅하다 걸린 The Otals의 'ナナマルサンバツ' 전주를 들었을 때 그렇게 반가울 수가 없었습니다. 푸릇푸릇한 기타 선율, 은은하게 깔린 잔향, 남녀 보컬의 매력적인 교차.. 적어도 제 기준에서는 구태여 설명할 필요가 없는 짜릿한 사운드였습니다. 그 덕분에 The Otals는 ..
MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows기존의 zero-shot Voice Conversion model은 large parameter size를 요구함MeanVCChunk-wise autoregressive denoising 기반의 diffusion Transformer를 활용해 streaming processing을 지원Mean flow를 통해 single sampling step 만으로도 zero-shot Voice Conversion 성능을 향상논문 (ICASSP 2026) : Paper Link1. IntroductionACE-VC, SEF-VC, AdaptVC와 같은 zero-shot Voice Co..
ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated InferenceDiffusion-based non-autoregressive Text-to-Speech model은 text-speech alignment와 high computational overhead의 문제점이 있음ARCHI-TTSText, audio 간의 robust temporal, semantic consistency를 보장하는 dedicated semantic aligner를 도입 Denoising step에서 encoder feature를 reuse 하여 추론 속도를 향상논문 (ICASSP 202..
Say More with Less: Variable-Frame-Rate Speech Tokenization via Adaptive Clustering and Implicit Duration Coding기존의 speech tokenizer는 information density나 temporal fluctuation에 관계없이 고정된 token per second를 assign 하므로 speech의 intrinsic structure와 mismatch가 존재함VARSTokSpeech를 variable-length unit으로 adaptively segment 하는 Temporal-Aware Density Peak Clustering을 도입Content, temporal span을 single token in..
Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge DistillationWhisper는 noisy acoustic condition에서 hallucination의 문제가 있음ALA & MOKDAdaptive Layer Attention (ALA)를 사용해 Whisper encoder의 robustness를 향상Multi-Objective Knowledge Distillation (MOKD) framework를 기반으로 hallucination을 suppress논문 (AAAI 2026) : Paper Link1. Introduction최근 Whisper와 같은 Transfor..
