MISRNet: Lightweight Neural Vocoder Using Multi-Input Single Shared Residual Blocks HiFi-GAN의 Multi-Receptive field Fusion (MRF)은 branch 수에 따라 모델 size가 증가하는 단점이 있음 MISRNet MRF의 대안으로 Multi-Input Single Shared Residual block을 도입하여 residual block을 mutiple에서 single 단위로 변형 Residual block의 input convolution size를 줄임으로써 전체적인 모델을 경량화하고, tensor reshaping을 도입하여 처리 속도를 향상 논문 (INTERSPEECH 2022) : Paper Link..
STYLER: Style Factor Modeling with Rapidity and Robustness via Speech Decomposition for Expressive and Controllable Neural Text to Speech Text-to-Speech는 어려운 합성 condition에 대한 robustness와 expressiveness, controllability를 요구함 STYLER Mel-Calibrator를 통한 audio-text aligning을 도입하여 unseen data에 대한 robust 한 추론을 가능하게 함 Supervision 하에서 disentangled style factor modeling을 통해 controllability를 향상 Domain adve..
GenerSpeech: Towards Style Transfer for Generalizble Out-of-Domain Text-to-Speech Out-of-Domain 음성 합성을 위해 style transfer를 활용할 수 있지만 몇 가지 한계가 존재함 - Expressive voice의 dynamic style feature는 모델링과 transfer가 어려움 - Text-to-Speech 모델은 source data와 다른 Out-of-Domain condition을 handle 할 수 있을 만큼 robust 해야 함 GenerSpeech Out-of-Domain custom voice에 대해 high-fidelity zero-shot style transfer를 가능하게 하는 text-to-s..
VarianceFlow: High-Quality and Controllable Text-to-Speech using Variance Information via Normalizing Flow Text와 speech 간의 one-to-many 관계를 학습하기 위해 두 가지 방식을 활용할 수 있음 - Normalizing Flow의 사용 - 합성 과정에서 pitch, energy 같은 variance information의 반영 VarianceFlow Normalizing Flow를 통해 variance를 모델링하여 더 정확하게 variance information을 예측 Normalizing Flow의 objective function은 variance와 text를 disentangle 하여 varianc..
DDSP: Differentiable Digital Signal Processing 대부분의 audio 생성 모델은 time 또는 frequency domain 중 하나에서 sampling을 생성함 - Signal을 표현하는 데는 적합하지만 sound가 생성되고 인식되는 방식에 대한 knowledge를 활용하지 않음 Vocoder의 경우 domain knowledge를 성공적으로 반영할 수 있지만 auto-differentiable-based 방식과는 통합하기 어려움 Differentiable Digital Signal Processing (DDSP) 기존의 signal processing 요소를 deep learning 방식과 통합 Neural network의 expressive power를 잃지 않으..
선정 기준 : 작성자 마음대로 뽑습니다. 2009년도 앨범 결산 1. 개인적인 추천 앨범 The Rifles - : 친숙한 훅과 에너제틱한 기타 라인으로 묶여진 The Rifles의 두 번째 앨범입니다. 어쩌면 전형적인 2000년대 후반의 사운드로 느껴질 수도 있겠지만, 그것을 귀에 맴도는 멜로디로 만들어내는 것이 바로 모든 파워팝 밴드의 숙명입니다. The Rifles - 'Sometimes' 2. 올해의 국내 싱글 9와 숫자들 - '석별의 춤' : 신스가 만들어 내는 사이키델릭함과 지난 향수를 연상시키는 복고풍의 멜로디가 인상적인 곡입니다. 이와 더불어 가사를 통해 전달되는 묘한 서정성은 곡에 또 하나의 매력을 더해줍니다. 9와 숫자들 - '석별의 춤' 3. 올해의 국내 앨범 장기하와 얼굴들 - : ..
선정 기준 : 작성자 마음대로 뽑습니다. 2008년도 앨범 결산 1. 개인적인 추천 앨범 브로콜리 너마저 - : 비록 이들에게 2009년은 오지 않았지만, 계피의 독보적인 음색과 윤덕원의 감성적인 작사/작곡이 어우러진 2008년의 는 아쉬움과 애틋함 사이의 그 묘한 감정으로 리스너를 꾸준히 자극합니다. 브로콜리 너마저 - '2009년의 우리들' 2. 올해의 국내 싱글 검정치마 - 'Antifreeze' : 국내 인디 르네상스에 활기를 불어넣을 뉴욕의 펑크 사운드가 드디어 검정치마를 통해 직수입되었습니다. 환상적인 신스 전주와 직선적인 기타를 담은 'Antifreeze'와 함께, 조휴일은 인디씬을 완전히 뒤흔들어 놓으며 차세대 인디스타로 발돋움 했습니다. 검정치마 - 'Antifreeze' 3. 올해의 국..
선정 기준 : 작성자 마음대로 뽑습니다. 2007년도 앨범 결산 1. 개인적인 추천 앨범 Spitz - : Kusano Masamune 특유의 시(詩)처럼 섬세한 노랫말들과 아련하고 서정적인 멜로디가 빛을 발한 앨범입니다. 앨범 전체를 감싸는 그 푸르른 애틋함은 분명 오직 Spitz만이 낼 수 있는 색일 것입니다. Spitz - 'Boku no Guitar' 2. 올해의 국내 싱글 윤하 - '혜성' : 아는 사람만 아는(?) 사실이지만 '혜성'은 윤하의 일본 싱글인 'ほうき星'의 번안곡입니다. 다만 이와는 별개로 그 파워풀한 보컬과 가벼운 멜로디의 조합은 언제 들어도 풋풋한 감정을 떠올리게는 충분합니다. 윤하 - '혜성' 3. 올해의 국내 앨범 이승열 - : 때늦게 재평가를 받긴 했지만, 유 앤 미 블루..
DiffVoice: Text-to-Speech with Latent Diffusion Text-to-Speech 모델의 성능 향상을 위해 latent diffusion을 활용할 수 있음 DiffVoice Adversarial training을 활용한 variational autoencoder를 통해 speech signal을 phoneme-rate representation으로 encode Diffusion model을 통한 latent representation과 duration의 joint modelling 논문 (ICASSP 2023) : Paper Link 1. Introduction Diffusion model은 합성 작업에서 뛰어난 성능을 보이고 있음 Text-to-Speech (TTS)에서는..