High-Fidelity Audio Compression with Improved RVQGANLanguage model의 핵심 component는 high-dimensional natural signal을 low-dimensional discrete token으로 compress 하는 neural codec임Improved RVQGANAdversarial, reconstruction loss와 vector quantization technique을 도입하여 high-fidelity의 audio compression을 보장추가적으로 speech, environment, music 등의 다양한 domain에 대한 universal compression을 지원논문 (NeruIPS 2023) : Paper Li..
EnCodecMAE: Leveraging Neural Codecs for Universal Audio Representation LearningUniversal audio representation learning은 다양한 downstream task에서 사용할 수 있는 foundational model을 요구함EnCodecMAEBERT와 같은 self-supervised universal audio model에 적용하기 위해 audio signal을 discrete class set으로 mapping결과적으로 Masked AutoEncoder (MAE)를 기반으로 discrete target을 생성하는 neural codec을 구성논문 (ICASSP 2024) : Paper Link1. Introduc..
LMCodec: A Low Bitrate Speech Codec with Causal Transformer ModelsNeural codec은 낮은 bitrate로 고품질의 audio를 얻을 수 있어야 함LMCodecBackbone으로 residual vector quantization을 사용하여 audio를 coarse-to-fine token의 hierarchy로 encoding 하는 causal convolutional codec을 사용이때 generative 방식으로 coarse-to-fine token을 예측하도록 Transformer language model을 training 하여 더 적은 수의 code를 transmission 할 수 있음Second Transformer의 경우, past ..
HiFi-Codec: Group-Residual Vector Quantization for High Fidelity Audio CodecAudio codec은 audio를 discrete representation으로 compress 하는 것으로써, 최근에는 생성 분야에서 intermediate representation으로 활용되고 있음BUT, audio codec은 large-scale dataset 부족과 reconstruction 성능 보장을 위한 codebook size의 부담으로 인한 어려움이 있음HiFi-Codec생성 모델의 부담을 완화하기 위해 Group-Residual Vector Quantization을 도입결과적으로 4개의 codebook 만으로도 high-fidelity의 audio..
SoundStorm: Efficient Parallel Audio GenerationEfficient, non-autoregressive audio generation을 위한 neural codec이 필요함SoundStormAudioLM의 semantic token을 input으로 receive 하고 bidrectional attention과 confidence-based parallel decoding을 사용하여 neural audio codec token을 생성Autoregressive 방식과 비교하여 2배의 속도 향상 효과와 고품질의 audio 합성이 가능논문 (Google Research 2023) : Paper Link1. IntroductionNeural codec을 통해 생성된 audio의 ..
SoundStream: An End-to-End Neural Audio CodecSpeech-tailored codec이 목표로 하는 bitrate로 음성, 음악, general audio를 효율적으로 compress 할 수 있도록 neural audio codec이 필요함SoundStreamFully-convolutional encoder/decoder와 residual vector quantizer로 구성된 architecture를 활용하여 end-to-end 방식으로 training 됨Training 시에는 adversarial loss와 reconstruction loss를 결합하여 quantized embedding에서 고품질 audio를 생성할 수 있도록 함Quantizer layer에 str..