EfficientTTS: An Efficient and High-Quality Text-to-Speech Architecture Text-to-Speech를 위해 non-autoregressive architecture는 많은 이점을 가지고 있음 EfficientTTS External aligner를 필요로 하는 autoregressive 모델과 달리, 안정적인 end-to-end 학습을 지원하여 효율적이면서 고품질의 음성 합성이 가능 연산량을 증가시키지 않고, sequence alignment에 monotonic constraint를 반영할 수 있는 monotonic alignment modeling을 제시 EfficientTTS를 다양한 feed-forward network 구조와 결합하여 Text-..
선정 기준 : 작성자 마음대로 뽑습니다. 1990년도 앨범 결산 1. 개인적인 추천 앨범 Poison Idea - : 공격적이고 에너지 넘치는 하드코어 펑크 사운드를 자랑하는 Poison Idea의 대표 앨범입니다. 앨범을 가득 채우는 광적인 드럼과 지치지 않는 기타 리프는 아드레날린을 증폭시키기에 충분합니다. Poison Idea - 'Plastic Bomb' 2. 올해의 국내 싱글 015B - '텅 빈 거리에서' : 윤종신이 객원보컬로 참여한 015B의 대표곡 중 하나입니다. 잔잔한 초반부와 달리 곡은 중반부의 코러스를 기점으로 완전히 전환되며, 기타 솔로를 거쳐 웅장한 오르간으로 피날레를 완성합니다. 015B - '텅 빈 거리에서' 3. 올해의 국내 앨범 푸른하늘 - : 8090년대 한국 음악을 논..
Grad-StyleSpeech: Any-Speaker Adaptive Text-to-Speech Synthesis with Diffusion Models Any-speaker adaptive Text-to-Speech 작업은 여전히 target speaker의 style을 모방하기에 만족스럽지 못함 Grad-StyleSpeech Diffusion model을 기반으로 하는 any-speaker adaptive Text-to-Speech model Few-second reference speech가 주어지면 target speaker와 유사한 음성을 생성하는 것을 목표로 함 논문 (ICASSP 2023) : Paper Link 1. Introduction Text-to-Speech (TTS)는 single..
Differentiable Signal Processing with Black-Box Audio Effects Audio effect를 deep neural network로 통합하여 automate audio signal processing을 수행할 수 있음 DeepAFx Non-differentiable black-box effect layer를 학습시키기 위해 stochastic gradient approximation을 활용하여 end-to-end backpropagation을 생성 Tube amplifier emulation, automatic mastering, breath removal에 대한 audio production 작업에 적용 가능 논문 (ICASSP 2021) : Paper Link..
iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform Mel-spectrogram vocoder는 3가지 inverse 작업을 해결할 수 있어야 함 - Original-scale magnitude spectrogram의 복구, Phase reconstruction, Frequency-to-time conversion 이를 위해 temporal upsampling layer를 활용하지만, mel-spectrogram 내의 time-frequency structure를 효과적으로 사용할 수 없음 iSTFTNet Upsampling layer를 통해 frequency dime..
Flow-TTS: A Non-Autoregressive Network for Text to Speech Based on Flow Non-autoregressive Text-to-Speech를 위해 generative flow를 활용할 수 있음 Flow-TTS Single feed-forward network 만을 사용하여 고품질의 음성을 합성 Spectrum 생성을 위해 flow를 활용하고 single network를 통해 alignment와 spectrogram 생성을 jointly learn 논문 (ICASSP 2020) : Paper Link 1. Introduction Text-to-Speech (TTS)는 input text sequence $\{ x_{1}, x_{2}, ..., x_{N}\}..
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for Everyone Zero-Shot multi-speaker Text-to-Speech를 위해 multilingual approach가 필요 YourTTS VITS를 기반으로 multi-speaker, multilingual task로 확장 Low-resource zero-shot 환경에서 우수한 합성 품질을 달성하고 1분 미만으로 fine-tuning이 가능 논문 (ICML 2022) : Paper Link 1. Introduction 대부분의 Text-to-Speech (TTS) 모델은 single speaker의 음성에만 특화되어 있음 이때 Zero-Shot ..
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior Denoising diffusion probabilistic model은 data densitiy의 gradient를 추정하여 고품질의 sample을 생성할 수 있음 일반적으로 prior noise를 standard Gaussian 분포로 정의하지만, 해당하는 data 분포는 더 복잡할 수 있음 - Data와 prior 사이의 discrepancy로 인해 data sample에서 prior noise를 제거하는 것이 어려워짐 PriorGrad Conditional information 기반의 data statistics로부터 도출된 ad..
Embedding a Differentiable Mel-Cepstral Synthesis Filter to a Neural Speech Synthesis System End-to-End controllable speech synthesis를 위해 Mel-cepstral synthesis filter를 활용할 수 있음 Differentiable Mel-Cepstral Synthesis Filter Mel-cepstral synthesis filter를 통해 voice characteristics와 pitch는 각각 frequency warping parameter와 fundamental frequency를 통해 control 될 수 있음 이때 End-to-End 방식으로 최적화할 수 있도록 diffeten..