ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated InferenceDiffusion-based non-autoregressive Text-to-Speech model은 text-speech alignment와 high computational overhead의 문제점이 있음ARCHI-TTSText, audio 간의 robust temporal, semantic consistency를 보장하는 dedicated semantic aligner를 도입 Denoising step에서 encoder feature를 reuse 하여 추론 속도를 향상논문 (ICASSP 202..
Say More with Less: Variable-Frame-Rate Speech Tokenization via Adaptive Clustering and Implicit Duration Coding기존의 speech tokenizer는 information density나 temporal fluctuation에 관계없이 고정된 token per second를 assign 하므로 speech의 intrinsic structure와 mismatch가 존재함VARSTokSpeech를 variable-length unit으로 adaptively segment 하는 Temporal-Aware Density Peak Clustering을 도입Content, temporal span을 single token in..
Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge DistillationWhisper는 noisy acoustic condition에서 hallucination의 문제가 있음ALA & MOKDAdaptive Layer Attention (ALA)를 사용해 Whisper encoder의 robustness를 향상Multi-Objective Knowledge Distillation (MOKD) framework를 기반으로 hallucination을 suppress논문 (AAAI 2026) : Paper Link1. Introduction최근 Whisper와 같은 Transfor..
MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor DisentanglementExpressive, controllable speech를 생성하기 위해서는 speech factor의 entanglement와 control mechanism의 coarse granularity를 해결해야 함MF-SpeechFactor purifier로 사용되는 MF-SpeechEncoder를 기반으로 multi-objective optimization을 수행하여 original speech signal을 independent representation으로 decomposeConductor로 사용되는 MF-Spee..
Scaling Transformers for Low-Bitrate High-Quality Speech Coding기존의 speech tokenization model은 대부분 strong inductive bias를 가지는 component를 사용한 low parameter-count architecture에 집중함TAAELarge parameter-count를 가지는 Transformer architecture를 사용하여 tokenization model을 scalingFinite Scalar Quantization-based bottleneck을 도입해 low bit-rate의 speech quality를 향상논문 (ICLR 2025) : Paper Link1. IntroductionSoundStre..
ParaMETA: Towards Learning Disentangled Paralinguistic Speaking Styles Representations from SpeechEmotion, gender, age와 같은 다양한 speaking style에 대한 representation을 학습할 수 있어야 함ParaMETA각 style에 대한 dedicated sub-space로 speech를 project 하여 disentangled, task-specific embedding을 얻음Inter-task interference와 negative transfer를 mitigate 하여 single model로 multiple paralinguistic task를 처리논문 (AAAI 2026) : Paper..
