Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge DistillationWhisper는 noisy acoustic condition에서 hallucination의 문제가 있음ALA & MOKDAdaptive Layer Attention (ALA)를 사용해 Whisper encoder의 robustness를 향상Multi-Objective Knowledge Distillation (MOKD) framework를 기반으로 hallucination을 suppress논문 (AAAI 2026) : Paper Link1. Introduction최근 Whisper와 같은 Transfor..
MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor DisentanglementExpressive, controllable speech를 생성하기 위해서는 speech factor의 entanglement와 control mechanism의 coarse granularity를 해결해야 함MF-SpeechFactor purifier로 사용되는 MF-SpeechEncoder를 기반으로 multi-objective optimization을 수행하여 original speech signal을 independent representation으로 decomposeConductor로 사용되는 MF-Spee..
이달의 슈게이즈 1회 - 26년 1월 신년맞이 새 시리즈. 사실 후술할 첫 번째 소식 때문에 글을 썼는데 그거 달랑 하나 이야기하기에는 너무 허전해서 정보 공유 겸 이것저것 모아봤습니다. * 업로드 당일 기준 작성자 레이더망에 걸린 것들만 올리니 놓치는 게 있을 수도 있습니다. 1. Asian Shoegaze의 부활 일본 슈게이즈를 전세계적으로 알리는데 큰 역할을 했던 Asian Shoegaze 채널이 3년 만에 부활했습니다. 업로드했던 앨범들이 전부 복구된 건 아닌 듯하지만, 그래도 , 와 같은 반가운 그 시절 앨범들을 풀버전으로 다시 찾아볼 수 있게 되었습니다.2. 도쿄 & 오사카 언더그라운드 이야기가 나온 김에 일본 슈게이즈 씬을 살펴봅시다. 먼저 도쿄에서는 Ghost Girl in My Bed가 ..
Scaling Transformers for Low-Bitrate High-Quality Speech Coding기존의 speech tokenization model은 대부분 strong inductive bias를 가지는 component를 사용한 low parameter-count architecture에 집중함TAAELarge parameter-count를 가지는 Transformer architecture를 사용하여 tokenization model을 scalingFinite Scalar Quantization-based bottleneck을 도입해 low bit-rate의 speech quality를 향상논문 (ICLR 2025) : Paper Link1. IntroductionSoundStre..
ParaMETA: Towards Learning Disentangled Paralinguistic Speaking Styles Representations from SpeechEmotion, gender, age와 같은 다양한 speaking style에 대한 representation을 학습할 수 있어야 함ParaMETA각 style에 대한 dedicated sub-space로 speech를 project 하여 disentangled, task-specific embedding을 얻음Inter-task interference와 negative transfer를 mitigate 하여 single model로 multiple paralinguistic task를 처리논문 (AAAI 2026) : Paper..
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-TrainingSpeaker characteristic modeling을 위해 Self-Supervised Learning을 활용할 수 있음UniSpeech-SATMulti-task learning을 도입하여 utterance-wise contrastive loss를 Self-Supervised Learning objective와 integrateUtterance mixing strategy 기반의 data augmentation을 수행논문 (ICASSP 2022) : Paper Link1. IntroductionSelf-Supervised Learning (SSL..
