CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering대부분의 text-to-speech system은 single utterance-level emotion을 enforce 함CoCoEmoActivation steering에 대한 multi-rater evaluation protocol을 도입Human-like emotional speech를 위한 lightweight steering approach를 적용논문 (ICML 2026) : Paper Link1. IntroductionNatural speech는 inherently complex 하고 multiple concurrent, conflicting ..
FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech RepresentationsZero-shot Text-to-Speech는 여전히 independent, precise control 측면에서 한계가 있음FC-TTS2-stage spectrogram generation pipeline과 VQ-VAE-based style encoder를 도입 추가적으로 conditioning-aware consistency loss를 도입해 attribute separation과 dual-reference control의 reliability를 향상논문 (ACL 2026) : Paper Link1. Introduction..
블로그 LaTeX 렌더링을 위해 MathJax를 쓰고 있었는데 중국의 Polyfill 공급망 공격으로 인해 일부 게시글에서 보안 위협이 발견되고 있습니다. 2026.06.03. 17:30을 기점으로 MathJax 관련 코드를 전부 수정하여 모든 보안 위협은 해결되었습니다. - 2026.06.03. 11:00 : 공격 확인- 2026.06.03. 12:30 : Algorithm 게시글 MathJax 서식 전체 교체 완료- 2026.06.03. 17:30 : Paper 게시글 MathJax 서식 전체 교체 완료 * (주의) 본 블로그는 아래 그림과 같은 사용자 정보를 절대 요구하지 않습니다.
이달의 슈게이즈 5회 - 26년 5월 * 업로드 당일 기준 작성자 레이더망에 걸린 것들만 올리니 놓치는게 있을 수도 있습니다. 1. 달콤쌉쌀한 초여름의 맛 교토의 슈게이즈 밴드 MoritaSaki in the Pool이 신보 를 들고 돌아왔습니다. 특히 이번 신보는 전작에 비해 더 다채로워진 멜로디와 생동감 넘치는 리듬을 앞세워 일본 슈게이즈에서 기대할 수 있는 가장 감각적인 사운드 톤을 만들어냅니다. 앨범아트처럼 샛노란 러버덕이 가득한 도심 속 풀장. 매끈한 도시적 감성과 어렴풋한 향수가 절묘하게 교차된 이 앨범을 놓치지 않길 바랍니다.MoritaSaki in the Pool - 'Slowdive'2. 커버와 창작 사이 지난 20일에는 Kurayamisaka가 뜻밖의 커버 싱글 'Sagittariu..
EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio CodingSpectrogram-domain은 complex-valued phase modeling의 한계가 있음EuleroDecAnalysis-Quantization-Synthesis pipeline에서 magnitude-phase coupling을 preserve특히 adversarial discriminator, diffusion post-filter를 제거하여 end-to-end processing을 지원논문 (ICASSP 2026) : Paper Link1. IntroductionSpectral-domain audio codec은 STFT를 통해 signal을 time-freq..
SyncSpeech: Efficient and Low-Latency Text-to-Speech based on Temporal Masked TransformerText-to-Speech model은 여전히 latency의 한계가 있음SyncSpeechTemporal Mask Transformer를 기반으로 autoregressive model의 temporally ordered generation과 non-autoregressive model의 parallel decoding을 unify추가적으로 High-Probability Masking을 통해 training efficiency를 향상논문 (ICASSP 2026) : Paper Link1. IntroductionText-to-Speech (TTS)는..
VoCodec: An Efficient Lightweight Low-Bitrate Speech CodecLow complexity, low latency neural codec이 필요함VoCodecVocos vocoder를 backbone으로 사용하여 complexity를 절감Speech enhancement capability를 extend 하기 위해 front end에 lightweight neural network를 cascade논문 (ICASSP 2026) : Paper Link1. IntroductionNeural codec은 encoder, decoder, quantizer module로 구성됨Encoder는 speech를 latent representation으로 compress 하고 dec..
Int-MeanFlow: Few-Step Speech Generation with Integral Velocity DistillationFlow-based model은 iterative sampling으로 인한 추론 속도의 한계가 있음Int-MeanFlowAverage velocity를 temporal interval 동안 teacher의 instantaneous velocity로 approximate추가적으로 Optimal Step Sampling Search를 도입하여 model-specific optimal sampling step을 identify논문 (ICASSP 2026) : Paper Link1. IntroductionText-to-Speech (TTS)에서 flow-based model은 ..
IPACue-TTS: Integrating Prosody and Articulatory Cues in Conditional Flow Matching for Multilingual Zero-Shot TTSNative-sounding cross-lingual, code-mixed Text-to-Speech model이 필요함IPACue-TTSPronunciation, prosodic accuracy를 향상하기 위해 articulatory phoneme refinement를 incorporateFlow-based framework를 통해 fine-grained acoustic, prosodic feature를 explicitly modeling논문 (ICASSP 2026) : Paper Link1. Intro..
