
StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks Style transfer의 개념을 빌린 Generative Adversarial Network (GAN)을 위한 generator architecture High level attributes와 stochastic variation에 대한 unsupervised separation을 학습하여 이미지 합성에 대한 scale-specific control을 제공 StyleGAN 기존의 distribution quality metric에 대해 SOTA 성능을 달성 더 나은 interpolation property 및 latent factor variation에 ..

DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism Singing Voice Synthesis (SVS)는 음향 feature 재구성을 위해 간단한 Loss나 GAN을 활용함 각각의 방식은 over-smoothing 문제와 불안정한 학습과정으로 인해 부자연스러운 음성을 만들어냄 DiffSinger Diffusion probabilistic 모델 기반의 SVS용 음향 모델 조건부 분포 하에서 노이즈를 mel-spectrogram으로 반복적으로 변환하는 parameterized Markov chain Variational bound를 최적화함으로써 안정적이고 자연스러운 음성을 합성 논문 (AAAI 2022) : Paper Link 1. I..

Fast and Accurate Model Scaling 일반적인 CNN에서 width, depth, resolution 등을 scaling 하여 더 나은 representational power를 부여할 수 있음 기존의 scaling 방식은 accuracy와 FLOP의 상호작용에 초점을 맞추고 있음 Fast Compound Scaling Scaling 전략은 parameter 수, activation, runtime에 대해 각각 다른 영향을 미침 Width를 확장하는 대신 depth, resolution을 더 작은 범위로 scaling 하는 fast compound scaling 방식 제시 논문 (CVPR 2021) : Paper Link 1. Introduction CNN은 GPU, TPU와 같은 고..

CompOFA: Compound Once-For-All Networks for Faster Multi-Platform Deployment Once-For-All (OFA)는 Neural Architecture Search (NAS)에서 한 번에 여러 모델을 학습시킬 수 있는 방식을 제안함 OFA를 적용하더라도 NAS 비용은 여전히 높음 CompOFA Accuracy-latency Pareto frontier에 가까운 모델로 search 범위를 제한 더 작은 search space를 구성하기 위한 모델 magnitude 간의 compound relationship 파악 논문 (ICRL 2021) : Paper Link 해당 논문의 Baseline : Once-For-All (OFA) 리뷰 1. Introd..

FastSpeech: Fast, Robust and Controllable Text to Speech 기존의 Text-to-Speech (TTS) 모델은 text에서 mel-spectrogram을 생성한 다음, WaveNet과 같은 vocoder를 사용해 mel-spectrogram에서 음성을 합성함 End-to-end TTS 모델은 추론 속도가 느리고 합성된 음성이 robust 하지 않고, controllability (voice speed, prosody control)가 떨어짐 FastSpeech Mel-spectrogram을 병렬로 생성하는 transformer 기반 feed-forward network Phoneme duration 예측을 위해 encoder-decoder 기반 teacher 모..

FastSpeech2: Fast and High-Quality End-to-End Text to Speech FastSpeech와 같은 non-autoregressive Text-to-Speech (TTS) 모델은 빠르게 음성합성이 가능함 FastSpeech는 duration prediction과 knowledge distillation을 위해 autoregressive teacher 모델에 의존적임 Teacher-student distillation 과정이 복잡하고 시간 소모적임 Teacher 모델에서 추출한 duration이 정확하지 않고 target mel-spectrogram의 단순함으로 인해 정보 손실이 발생함 FastSpeech 2 Teacher의 단순화된 output 대신 ground-tru..