CompOFA: Compound Once-For-All Networks for Faster Multi-Platform Deployment Once-For-All (OFA)는 Neural Architecture Search (NAS)에서 한 번에 여러 모델을 학습시킬 수 있는 방식을 제안함 OFA를 적용하더라도 NAS 비용은 여전히 높음 CompOFA Accuracy-latency Pareto frontier에 가까운 모델로 search 범위를 제한 더 작은 search space를 구성하기 위한 모델 magnitude 간의 compound relationship 파악 논문 (ICRL 2021) : Paper Link 해당 논문의 Baseline : Once-For-All (OFA) 리뷰 1. Introd..
FastSpeech: Fast, Robust and Controllable Text to Speech 기존의 Text-to-Speech (TTS) 모델은 text에서 mel-spectrogram을 생성한 다음, WaveNet과 같은 vocoder를 사용해 mel-spectrogram에서 음성을 합성함 End-to-end TTS 모델은 추론 속도가 느리고 합성된 음성이 robust 하지 않고, controllability (voice speed, prosody control)가 떨어짐 FastSpeech Mel-spectrogram을 병렬로 생성하는 transformer 기반 feed-forward network Phoneme duration 예측을 위해 encoder-decoder 기반 teacher 모..
FastSpeech2: Fast and High-Quality End-to-End Text to Speech FastSpeech와 같은 non-autoregressive Text-to-Speech (TTS) 모델은 빠르게 음성합성이 가능함 FastSpeech는 duration prediction과 knowledge distillation을 위해 autoregressive teacher 모델에 의존적임 Teacher-student distillation 과정이 복잡하고 시간 소모적임 Teacher 모델에서 추출한 duration이 정확하지 않고 target mel-spectrogram의 단순함으로 인해 정보 손실이 발생함 FastSpeech 2 Teacher의 단순화된 output 대신 ground-tru..
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Single-stage 학습을 가능하게 하는 end-to-end 방식의 text-to-speech (TTS) 모델이 제안되었지만 여전히 two-stage TTS 모델들보다 음성 품질이 낮음 Two-stage TTS 모델보다 더 자연스러운 음성을 생성하는 병렬 end-to-end TTS 모델이 필요 VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) Normalizing flow와 적대적 학습 방식을 사용한 variational 추론을 통한 생성..
Nix-TTS: Lightweight and End-to-End Text-to-Speech via Module-wise Distillation Text-to-Speech (TTS) 모델은 최적화하기 어렵거나 많은 학습 비용이 발생함 Nix-TTS Knowledge distillation을 활용한 non-autoregressive end-to-end 경량 TTS 모델 (Vocoder-free!) Encoder, Decoder 모듈에 대해 유연하고 독립적인 distillation을 가능하게 하는 Module-wise distillation 활용 논문 (SLT 2022) : Paper Link 1. Introduction 최근의 TTS 모델은 크기가 상당히 크고 CPU 추론 속도가 느림 저비용, 자원 제약 환..
EfficientSpeech: An On-Device Text to Speech Model 최신 Text to Speech (TTS) 모델은 클라우드 사용을 염두에 두고 큰 메모리 공간과 많은 연산을 필요로 함 이러한 TTS 모델은 자원과 인터넷 액세스가 제한된 edge device에서 적용되기 어려움 EfficientSpeech Shallow non-autoregressive pyramid-structure transformer 기반의 U-Network 사용 기존 TTS 모델 크기의 1% 정도로 압축된 경량화된 음성 합성 모델 논문 (ICASSP 2023) : Paper Link 1. Introduction 클라우드 서비스에 의존하지 않고 독립된 음성 합성을 가능하게 하는 것은 많은 이점을 가져다줄 수..
LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search Text to Speech (TTS) 모델을 다양한 device에 배포하기 위해서는 적은 메모리와 추론 latency를 가져야 함 Non-autoregressive TTS 모델을 통해 빠른 추론 속도를 달성했지만 여전히 자원 제약이 있는 device에 배포하기 어려움 LightSpeech Neural Architecture Search (NAS)를 활용한 FastSpeech 기반의 자동 network 설계 다양한 lightweight architecture를 포함하는 새로운 search space 구성 논문 (ICASSP 2021) : Paper Link 1. ..
Lightweight Convolutional Neural Network Architecture Design for Music Genre Classification using Evolutionary Stochastic Hyperparameter Selection Music Genre Classification (MGC)은 대용량 음악 콘텐츠의 정확한 indexing, 분류를 위해서 높은 계산 비용이 필요 CNN은 MGC에 적합한 network architecture이지만 음악과 architecture에 대한 도메인 지식이 필요 MGA-CNN Stochastic Hyperparameter Selection을 통한 Genetic Algorithm 기반 최적 architecture search MGC 작업을 ..
2023년도 상반기 인상적인 앨범들 top 20을 소개합니다. 짧은 평은 top 10까지만 2023년도 상반기 앨범 결산 1. Dispirited Spirits - : 얼마 전 리뷰에서도 한번 다뤘듯이, 낭만적인 우주적 서사와 완성도 높은 미드웨스트 이모(Midwest Emo) 사운드를 결합해 낸 앨범입니다. 하반기에 나올 앨범들이 더 큰 임팩트를 보이지 않는다면, 2023년도 연말결산 상위권 한자리를 차지할 것은 분명해 보입니다. Dispirited Spirits - 'Bring Down the Sky' 2. Carson Coma - : 에너지와 멜로디가 넘처흐르는 헝가리산 개러지락 앨범입니다. 익숙한 영어가 아닌 헝가리어 가사는 앨범의 신선한 매력을 더해줍니다. Carson Coma - 'VIGYÁZ..