선정 기준 : 작성자 마음대로 뽑습니다. 2005년도 앨범 결산 1. 개인적인 추천 앨범 The Clientele - : 60년대 팝의 아름다움을 훌륭하게 재현한 The Clientele의 앨범입니다. 달콤씁쓸한 쟁글팝 기타와 물 흐르듯 편안하게 흘러가는 곡의 템포는 몸과 마음 모두를 안정시킵니다. The Clientele - 'My Own Face Inside the Tree' 2. 올해의 국내 싱글 윤종신 - '너에게 간다' : 와 더불어 윤종신의 최고 앨범이라 평가받는 의 타이틀 곡입니다. 떨리는 보컬과 발맞추며 점점 고조되어 가는 멜로디는, 그 벅차오르는 심정을 리스너에게 절실하게 전달합니다. 윤종신 - '너에게 간다' 3. 올해의 국내 앨범 페퍼톤스 - : 라는 그 제목처럼 다채롭고 경쾌한 일렉..
Singing Voice Synthesis Using Differentiable LPC and Glottal-Flow-Inspired Wavetables Singing Voice Synthesis를 위해 human voice의 physical characteristic을 활용할 수 있음 Glottal-Flow LPC Filter (GOLF) Harmonic source로써 glottal model을 사용하고, vocal tract를 simulate 하기 위해 IIR filter를 활용 GOLF는 더 적은 parameter와 memory를 사용함으로써 빠른 추론이 가능함 GOLF는 singing voice를 다양화할 수 있는 phase component를 modelling할 수 있음 논문 (ISMIR 20..
Fre-GAN 2: Fast and Efficient Frequency-Consistent Audio Synthesis 대규모의 TTS 모델은 resource가 제한된 device에 적용하기 어려우므로 neural vocoder는 효율적이면서도 고품질의 합성이 가능해야 함 Fre-GAN 2 Audio의 low/high-frequency에서 합성을 수행하고, inverse discrete wavelet transform을 통해 target-resolution audio를 reproduce 적은 수의 parameter 만으로 고품질의 audio를 합성할 수 있도록 adversarial periodic feature distillation을 도입 논문 (ICASSP 2022) : Paper Link 1. In..
CyFi-TTS: Cyclic Normalizing Flow with Fine-Grained Representation for End-to-End Text-to-Speech End-to-End Text-to-Speech는 unseen data에 대해 적용하는 것은 어려움 One-to-many 문제로 인해 text와 음성 사이에 information gap이 발생하여 mispronunciation 되기 쉽기 때문 CyFi-TTS Cyclic normalizing flow를 도입하여 information gap을 해소해 자연스러운 음성을 합성 Temporal multi-resolution upsampler를 도입하여 fine-grained representation을 점진적으로 생성 논문 (ICASSP 20..
SpeedySpeech: Efficient Neural Speech Syntheis Neural Text-to-Speech는 음성 합성의 품질을 크게 향상했지만, 여전히 추론 및 학습 속도가 느림 SpeedySpeech 계산 resource 요구사항이 적고, 빠른 spectrogram 합성이 가능한 student-teacher network 고품질 audio 생성에 self-attention layer가 필요하지 않다는 점을 이용 Residual connection이 있는 간단한 convolution을 활용하고 teacher model에 대해서만 attention layer를 적용 논문 (INTERSPEECH 2020) : Paper Link 1. Introduction 최신 Neural Text-to-..
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral ShapingDenoising Diffusion Probabilistic Model을 사용하는 neural vocoder는 주어진 acoustic feature에 대한 diffusion noise 분포를 조절함SpecGradTime-varying spectral envelope가 conditioning log mel-spectrogram에 가까워지도록 diffusion noise를 조절하는 neural vocoderTime-varying filter를 통한 high-frequency band에서의 품질 상승논문 (INTERSPEECH 2022) ..