서투른 갈망으로 바라본 네버랜드의 출구 : 파란노을 - - Released : 2021.02.23. - Genres : Shoegaze, Emo, Post-Hardcore 회피는 두려움의 방어기제이다. 불안정한 결과와 추정된 실패는 마주하고 싶지 않은 두려움이기에, 우리의 본능은 미숙함을 핑계로 회피로써 응답한다. 하지만 이것이 한두번의 패배라면 충분히 도망갈 곳이 있겠지만, 거듭된 실패 앞에서는 전혀 소용없을지도 모른다. 그렇기에 모든 회피와 불안의 종착지는 오직 자신만이 닿을 수 있는 완전무결의 네버랜드에 위치한다. 그 네버랜드가 조그만 방구석이든, 추억의 저편이든, 무엇이든 간에, 적어도 그곳에서 만큼은 아무 걱정 없이 무사할 테니 말이다. 모두가 바뀌어 갈 때 영원할 나의 영토여 세상이 나를 등지..
Denoising Diffusion Probabilistic Models Nonequilibrium thermodynamics에서 영감을 받은 latent variable model인 diffusion probabilistic model을 사용하여 고품질의 이미지 합성을 시도 Denoising Diffusion Probabilistic Model (DDPM) Diffusion probabilistic model과 Langevin dynamics를 연결하는 denoising score matching을 활용 Autoregressive decoding의 generalization으로 해석될 수 있는 progressive lossy decompression을 허용 논문 (NeurIPS 2020) : Paper..
PortaSpeech: Portable and High-Quality Generative Text-to-Speech Non-autoregressive Text-to-Speech 모델은 고품질의 음성 합성이 가능하지만 몇 가지 한계가 있음 - VAE는 작은 모델 size로도 long-range semantic feature를 capture 할 수 있지만, 종종 부자연스러운 결과를 생성함 - Normalizing Flow는 frequency bin-wise detail을 reconstruct 하는데 좋지만, 많은 parameter 수를 필요로 함 PortaSpeech Lightweight architecture를 사용하여 고품질의 음성 합성을 지원하는 TTS 모델 Enhanced prior를 포함한 ligh..
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Denoising Diffusion Probabilistic Model (DDPM)과 Generative Adversarial Network (GAN)은 neural vocoder에서 자주 활용되고 있음 WaveFit Fixed-point iteration을 기반으로 하는 DDPM-like iterative framework에 GAN의 특성을 통합 Input signal을 iteratively denoise 하고 모든 iteration에서 intermediate output의 adversarial loss를 최소화 논문 (SLT 2023) : ..
Singing Voice Synthesis based on a Musical Note Position-aware Attention Mechanism Singing Voice Synthesis를 위해 acoustic, temporal 모델링을 동시에 수행할 수 있는 sequence-to-sequence 모델을 활용할 수 있음 Musical Note Position-aware Attention Musical score가 주는 rhythm을 고려하여 attention weight를 추정 제안하는 attention mechanism을 활용하여 sequence-to-sequence 모델에서 simultaneous 모델링을 수행하고 temporal 모델링에 대한 robustness를 향상 논문 (ICASSP 202..
Direct Design of Biquad Filter Cascades with Deep Learning by Sampling Random Polynomials Arbitrary magnitude response와 match 하도록 Infinite Impulse Response filter를 설계하는 것은 어려움 - Yule-Walker method는 효율적이지만 high-order response를 정확하게 match 하지 못함 - Iterative optimization은 우수한 성능을 보이지만 initial condition에 민감 IIRNet 수백만개의 random filter에 대해 학습된 neural network를 사용하여 target magnitude response에서 filter coe..