ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction 기존의 speaker verification model은 noise-robustness 측면에서 한계가 있음ParaNoise-SVNoise Extraction network와 Speech Enhancement network를 combine 한 dual U-Net을 활용Noise Extraction U-Net은 noise를 explicitly modeling 하고 Speech Enhancement U-Net은 parallel connection을 통한 ..
ZSDEVC: Zero-Shot Diffusion-based Emotional Voice Conversion with Disentangled MechanismEmotional Voice Conversion은 emotion accuracy와 speech distortion 문제가 존재함ZSDEVCDisentangled mechanism과 expressive guidance를 가지는 diffusion framework를 활용Large emotional speech dataset으로 model을 training논문 (INTERSPEECH 2025) : Paper Link1. IntroductionEmotional Voice Conversion (EVC)는 linguistic content, speaker id..
LSPNet: An Ultra-Low Bitrate Hybrid Neural CodecUltra-low bitrate에서도 동작할 수 있는 neural codec이 필요함LSPNetLPCNet framework를 기반으로 parameteric encoder를 combine 하여 Line Spectral Pair를 incorporate추가적으로 STFT loss와 Cross-Entropy loss를 활용한 Joint Time-Frequency training strategy를 적용논문 (INTERSPEECH 2025) : Paper Link1. Introduction1.2kbps의 ultra-low bitrate speech coding에서 intelligible, natural-sounding speec..
EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-ContrastContrastive Language Audio Pre-training은 emotion의 ordinal nature를 capture 하지 못하고 audio, text embedding 간의 insufficient alignment가 나타남EmotionRankCLAPEmotional speech와 natural language prompt의 dimensional attribute를 활용하여 fine-grained emotion variation을 jointly captureRank-N-Contrast objective를 ..
일본 슈게이즈를 찾아서: 태동기부터 오늘날까지 진짜들만 찾아 듣던 시절을 지나 어느새 마이너들의 왕이 되어버린 일본 슈게이즈. 두터운 소음과 이펙터를 앞세워 사운드를 철저하게 뭉개는 정공법과 달리, 보다 선명한 멜로디 라인과 슈게이즈 티만 내는듯한 옅은 잔향은 일본 슈게이즈만의 독특한 특징이기도 하다. 하지만 이 특이성이 너무 돋보이는 나머지, 다른 매력 요소들이 쉽게 간과되곤 한다. 게다가 바로 옆 동네 음악임에도 불구하고, 생각보다 접할 수 있는 정보들도 적다 보니 어디서부터 들어야 할지 막막하기도 하다. 그러니 이번 기회에 일본 슈게이즈가 어디서 왔으며, 어떻게 자리 잡았고, 어디로 가고 있는지를 파헤쳐보자.1. ライド歌謡, 기타의 본질을 향하여 Blue Hearts의 펑크 록과 Loudness..
ControlSpeech: Towards Simultaneous and Independent Zero-Shot Speaker Cloning and Zero-Shot Language Style ControlSpeaking style control과 adjustment를 위한 Text-to-Speech model이 필요함ControlSpeechSpeech prompt, content prompt, style prompt를 input으로 하여 bidirectional attention, mask-based parallel decoding을 통해 codec representation을 captureStyle Mixture Semantic Density module을 통해 textual style control의..
Discl-VC: Disentangled Discrete Tokens and In-Context Learning for Controllable Zero-Shot Voice ConversionZero-shot Voice Conversion은 source speaker의 speaking style을 accurately replicate 하는데 한계가 있음Discl-VCContent, prosody information을 self-supervised speech representation으로부터 disentangleFlow Matching Transformer와 in-context learning을 통해 target speaker voice를 합성논문 (INTERSPEECH 2025) : Paper Link1..
Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations최근 selective state space model이 주목받고 있음Audio MambaAudio representation learning을 위해 selective state space model에 self-supervised learning을 적용 Randomly masked spectrogram patch를 통해 general-purpose audio representation을 학습논문 (INTERSPEECH 2024) : Paper Link1. IntroductionTransformer는 multiple domain과 data modality에 대한 repr..
CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware MaskingECAPA-TDNN은 high complexity와 slow inference speed의 문제가 있음CAM++Context-Aware Masking을 densely-connected Time Delay Neural Network backbone에 적용Multi-granularity pooling을 적용하여 서로 다른 level의 textual information을 capture논문 (INTERSPEECH 2023) : Paper Link1. IntroductionSpeaker Verification (SV)는 voice characteristic..
