
CQNV: A Combination of Coarsely Quantized Bitstream and Neural Vocoder for Low Rate Speech Coding기존 neural codec architecture 내에는 parameter quantization의 redundancy가 나타남CQNVParameteric codec의 coarsely quantized parameter를 neural vocoder와 결합한 neural codecParameter processing module을 도입해 speech coding parameter의 bitstream을 강화하고 reconstruction 품질을 개선논문 (INTERSPEECH 2023) : Paper Link1. Introduction..

SRCodec: Split-Residual Vector Quantization for Neural Speech CodecEnd-to-End neural speech coding은 residual vector quantization을 통해 수행될 수 있지만, 가능한 적은 bit로 latent variable을 quantize 하는 것은 어려움SRCodecLatent representation을 동일한 dimension을 가지는 두 part로 split 하는 split-residual vector quantization을 채택한 fully convolutional encoder-decoder network- Low-dimensional feature와 high-dimensional feature 간의 res..

High-Fidelity Audio Compression with Improved RVQGANLanguage model의 핵심 component는 high-dimensional natural signal을 low-dimensional discrete token으로 compress 하는 neural codec임Improved RVQGANAdversarial, reconstruction loss와 vector quantization technique을 도입하여 high-fidelity의 audio compression을 보장추가적으로 speech, environment, music 등의 다양한 domain에 대한 universal compression을 지원논문 (NeruIPS 2023) : Paper Li..

EnCodecMAE: Leveraging Neural Codecs for Universal Audio Representation LearningUniversal audio representation learning은 다양한 downstream task에서 사용할 수 있는 foundational model을 요구함EnCodecMAEBERT와 같은 self-supervised universal audio model에 적용하기 위해 audio signal을 discrete class set으로 mapping결과적으로 Masked AutoEncoder (MAE)를 기반으로 discrete target을 생성하는 neural codec을 구성논문 (ICASSP 2024) : Paper Link1. Introduc..

LMCodec: A Low Bitrate Speech Codec with Causal Transformer ModelsNeural codec은 낮은 bitrate로 고품질의 audio를 얻을 수 있어야 함LMCodecBackbone으로 residual vector quantization을 사용하여 audio를 coarse-to-fine token의 hierarchy로 encoding 하는 causal convolutional codec을 사용이때 generative 방식으로 coarse-to-fine token을 예측하도록 Transformer language model을 training 하여 더 적은 수의 code를 transmission 할 수 있음Second Transformer의 경우, past ..

HiFi-Codec: Group-Residual Vector Quantization for High Fidelity Audio CodecAudio codec은 audio를 discrete representation으로 compress 하는 것으로써, 최근에는 생성 분야에서 intermediate representation으로 활용되고 있음BUT, audio codec은 large-scale dataset 부족과 reconstruction 성능 보장을 위한 codebook size의 부담으로 인한 어려움이 있음HiFi-Codec생성 모델의 부담을 완화하기 위해 Group-Residual Vector Quantization을 도입결과적으로 4개의 codebook 만으로도 high-fidelity의 audio..