선정 기준 : 작성자 마음대로 뽑습니다. 2006년도 앨범 결산 1. 개인적인 추천 앨범 The Long Blondes - : 찰랑거리는 C86 쟁글팝 사운드가 만들어내는 흥겨운 80년대 향수가 매력적인 앨범입니다. 한편으로는 미국의 Sleater-Kinney가 떠오르기도 하지만, Sheffield 밴드답게 그 묘한 영국의 향기가 앨범에 묻어있습니다. The Long Blonde - 'Once and Never Again' 2. 올해의 국내 싱글 우리는 속옷도 생겼고 여자도 늘었다네 - '멕시코행 고속열차' : 정말 보잘 것 없던 그 시절 한국 슈게이즈 씬을 이끌고 간 속옷 밴드의 대표곡입니다. '멕시코행 고속열차'라는 그 제목처럼 곡은 몽환적인 기타를 중심으로 새벽을 달리는 기차의 풍경을 그려냅니다. ..
DSPGAN: A GAN-based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSP Generative Adversarial Network를 활용한 vocoder는 빠른 추론 속도와 효과적인 raw waveform 합성이 가능 하지만 unseen speaker에 대해서는 high-fidelity speech를 합성하기는 어려움 DSPGAN Digital Signal Processing에서의 time-frequency domain supervision을 도입하여 고품질 합성을 지원 Ground-truth와 예측 mel-spectrogram 사이의 mismatch를 해소하기 위해 DSP module에서 ..
MixPath: A Unified Approach for One-shot Neural Architecture Search 일반적인 two-stage neural architecture search method는 single-path search space에 제한되어 있음 Multi-path structure를 효율적으로 search 하는 것은 여전히 어려움 MixPath Candidate architecture를 정확하게 평가하기 위해 one-shot multi-path supernet을 학습시킴 서로 다른 feature statistics를 regularize하기 위해 Shadow Batch Normalization을 도입 결과적으로 Shadow Batch Normalization을 통해 최적화를 안정..
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Denoising diffuion probabilistic model과 generative score matching은 복잡한 data 분포를 모델링하는데 뛰어남 Grad-TTS Encoder에 의해 예측된 noise를 점진적으로 변환하고 Monotonic Alignment Search를 통해 text input에 맞춰 정렬된 mel-spectrogram을 생성 Stochastic differential equation을 통해 noise로부터 data를 reconstruct 논문 (ICML 2021) : Paper Link 1. Introduction Text-to-Speech (TTS) 모델은 ..
선정 기준 : 작성자 마음대로 뽑습니다. 2005년도 앨범 결산 1. 개인적인 추천 앨범 The Clientele - : 60년대 팝의 아름다움을 훌륭하게 재현한 The Clientele의 앨범입니다. 달콤씁쓸한 쟁글팝 기타와 물 흐르듯 편안하게 흘러가는 곡의 템포는 몸과 마음 모두를 안정시킵니다. The Clientele - 'My Own Face Inside the Tree' 2. 올해의 국내 싱글 윤종신 - '너에게 간다' : 와 더불어 윤종신의 최고 앨범이라 평가받는 의 타이틀 곡입니다. 떨리는 보컬과 발맞추며 점점 고조되어 가는 멜로디는, 그 벅차오르는 심정을 리스너에게 절실하게 전달합니다. 윤종신 - '너에게 간다' 3. 올해의 국내 앨범 페퍼톤스 - : 라는 그 제목처럼 다채롭고 경쾌한 일렉..
Singing Voice Synthesis Using Differentiable LPC and Glottal-Flow-Inspired Wavetables Singing Voice Synthesis를 위해 human voice의 physical characteristic을 활용할 수 있음 Glottal-Flow LPC Filter (GOLF) Harmonic source로써 glottal model을 사용하고, vocal tract를 simulate 하기 위해 IIR filter를 활용 GOLF는 더 적은 parameter와 memory를 사용함으로써 빠른 추론이 가능함 GOLF는 singing voice를 다양화할 수 있는 phase component를 modelling할 수 있음 논문 (ISMIR 20..
Fre-GAN 2: Fast and Efficient Frequency-Consistent Audio Synthesis 대규모의 TTS 모델은 resource가 제한된 device에 적용하기 어려우므로 neural vocoder는 효율적이면서도 고품질의 합성이 가능해야 함 Fre-GAN 2 Audio의 low/high-frequency에서 합성을 수행하고, inverse discrete wavelet transform을 통해 target-resolution audio를 reproduce 적은 수의 parameter 만으로 고품질의 audio를 합성할 수 있도록 adversarial periodic feature distillation을 도입 논문 (ICASSP 2022) : Paper Link 1. In..
CyFi-TTS: Cyclic Normalizing Flow with Fine-Grained Representation for End-to-End Text-to-Speech End-to-End Text-to-Speech는 unseen data에 대해 적용하는 것은 어려움 One-to-many 문제로 인해 text와 음성 사이에 information gap이 발생하여 mispronunciation 되기 쉽기 때문 CyFi-TTS Cyclic normalizing flow를 도입하여 information gap을 해소해 자연스러운 음성을 합성 Temporal multi-resolution upsampler를 도입하여 fine-grained representation을 점진적으로 생성 논문 (ICASSP 20..
SpeedySpeech: Efficient Neural Speech Syntheis Neural Text-to-Speech는 음성 합성의 품질을 크게 향상했지만, 여전히 추론 및 학습 속도가 느림 SpeedySpeech 계산 resource 요구사항이 적고, 빠른 spectrogram 합성이 가능한 student-teacher network 고품질 audio 생성에 self-attention layer가 필요하지 않다는 점을 이용 Residual connection이 있는 간단한 convolution을 활용하고 teacher model에 대해서만 attention layer를 적용 논문 (INTERSPEECH 2020) : Paper Link 1. Introduction 최신 Neural Text-to-..