FACTSpeech: Speaking a Foreign Language Pronunciation Using Only Your Native Characters대부분의 text-to-speech model은 transliterated text를 고려하지 않음FACTSpeechInput text의 pronunciation을 native, literal pronunciation으로 변환하는 language shift embedding을 도입Speaker identity를 preserve 하면서 pronunciation을 향상하기 위해 conditional instance normalization을 적용논문 (INTERSPEECH 2023) : Paper Link1. IntroductionText-to-Speec..
E1-TTS: Simple and Fast Non-Autoregressive TTSEfficient non-autoregressive zero-shot text-to-speech model이 필요함E1-TTSDenoising diffusion pre-training과 distribution matching distillation을 활용Text, audio pair 간의 explicit monotonic alignment를 제거논문 (ICASSP 2025) : Paper Link1. IntroductionNon-Autoregressive (NAR) Text-to-Speech (TTS) model은 text로부터 speech를 parallel 하게 생성하므로, 하나의 unit 씩 합성하는 Autoregres..
SyllableLM: Learning Coarse Semantic Units for Speech Language ModelsAudio와 같은 continuous data에 대한 tokenization은 fixed size convolution이나 discrete clustering에 의존하므로 data의 semantic structure와 align 되지 않음SyllableLMPre-trained encoder loss의 correlation을 analyze 하여 noisy boundary를 추출Distillation technique을 통해 model representation을 iteratively improving논문 (ICLR 2025) : Paper Link1. IntroductionSpoken..
돌아온 상반기 결산, 2025년 6월 기준 최고의 앨범을 뽑아봅시다.선정 기준 : 작성자 마음대로 뽑습니다.2025년도 상반기 앨범 결산 1. Honningbarna - - Post-Hardcore, Noise Rock, Synth Punk: 상반기 최고의 앨범은 노르웨이의 포스트-하드코어 밴드 Honningbarna의 신보가 차지했습니다. 야성적으로 부딪히는 기타, 긴장감 넘치는 드럼, 생동감을 더하는 신디사이저까지, 전작 를 기점으로 완전히 만개한 그들의 음악적 기량이 확연히 녹아있는 앨범입니다.Hornningbarna - 'God Gutt' 2. Arm's Length - - Emo-Pop, Pop-Punk, Post-Hardcore: 멜로디와 감성을 하나로 꿰뚫어낸 안정적인 이모/팝-펑크 앨범입니..
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual DataTextual data를 통해 speech pre-training을 개선하기 위해서는 서로 다른 두 modality의 distinct characteristic을 고려할 수 있어야 함SpeechLMSpeech, text modality를 bridge 하기 위해 phoneme-unit, hidden-unit tokenizer를 도입Trained tokenizer를 기반으로 unlabeled speech, text data를 phoneme-unit, hidden-unit token으로 변환추가적으로 speech, text를 same discrete semantic space로 unify 하는 ..
PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-Controllable TTSPitch-controllable text-to-seech는 fundamental frequency를 directly modeling 하는 것에 의존함PITSVariational inference를 사용하여 pitch를 modeling 하는 end-to-end modelVITS를 기반으로 Yingram encoder, Yingram decoder, adversarial training을 incorporate논문 (ICML 2023) : Paper Link1. IntroductionText-to-Speech (TTS)는 주어진 ..
Wav2Vec-C: A Self-Supervised Model for Speech Representation LearningWav2Vec 2.0과 VQ-VAE를 combine 하여 representation learning을 수행할 수 있음Wav2Vec-CWav2Vec 2.0과 같이 contrastive loss를 사용하여 partially masked speech encoding에서 quantized representation을 reproduce하는 방법을 학습이때 VQ-VAE와 같이 quantized representation에서 Wav2Vec 2.0 network의 input feature를 reconstruct 하는 consistency network를 통해 quantization process를..
Wav2Vec-Switch: Contrastive Learning from Original-Noisy Speech Pairs for Robust Speech RecognitionSelf-Supervised Learning framework는 noise robustness를 고려하지 않음Wav2Vec-SwitchOriginal-noisy speech pair를 Wav2Vec 2.0 network에 simultaneously feedOriginal, noisy speech에 대한 quantized representation을 서로에 대한 additional prediction target으로 활용논문 (ICASSP 2022) : Paper Link1. IntroductionSpeech task에 대한 Sel..
CSSinger: End-to-End Chunkwise Streaming Singing Voice Synthesis System based on Conditional Variational AutoencoderEnd-to-End modeling을 singing voice synthesis에 적용하면 우수한 합성 성능을 달성할 수 있음CSSingerEnd-to-End model의 latency 절감을 위해 Chunkwise Streaming inference를 도입Variational Autoencoder의 latent representation을 활용한 fully end-to-end streaming audio synthesis를 지원논문 (AAAI 2025) : Paper Link1. Introducti..
