
HiFi-Codec: Group-Residual Vector Quantization for High Fidelity Audio CodecAudio codec은 audio를 discrete representation으로 compress 하는 것으로써, 최근에는 생성 분야에서 intermediate representation으로 활용되고 있음BUT, audio codec은 large-scale dataset 부족과 reconstruction 성능 보장을 위한 codebook size의 부담으로 인한 어려움이 있음HiFi-Codec생성 모델의 부담을 완화하기 위해 Group-Residual Vector Quantization을 도입결과적으로 4개의 codebook 만으로도 high-fidelity의 audio..

SoundStorm: Efficient Parallel Audio GenerationEfficient, non-autoregressive audio generation을 위한 neural codec이 필요함SoundStormAudioLM의 semantic token을 input으로 receive 하고 bidrectional attention과 confidence-based parallel decoding을 사용하여 neural audio codec token을 생성Autoregressive 방식과 비교하여 2배의 속도 향상 효과와 고품질의 audio 합성이 가능논문 (Google Research 2023) : Paper Link1. IntroductionNeural codec을 통해 생성된 audio의 ..

SoundStream: An End-to-End Neural Audio CodecSpeech-tailored codec이 목표로 하는 bitrate로 음성, 음악, general audio를 효율적으로 compress 할 수 있도록 neural audio codec이 필요함SoundStreamFully-convolutional encoder/decoder와 residual vector quantizer로 구성된 architecture를 활용하여 end-to-end 방식으로 training 됨Training 시에는 adversarial loss와 reconstruction loss를 결합하여 quantized embedding에서 고품질 audio를 생성할 수 있도록 함Quantizer layer에 str..

EnCodec: High Fidelity Neural Audio Compression Neural network를 사용하여 real-time, high-fidelity의 audio codec을 구성할 수 있음 EnCodec End-to-End 방식으로 학습된 quantized latent space를 가지는 streaming encoder-decoder architecture를 활용 Artifact를 줄이고 고품질의 sample을 합성하기 위해 multi-scale spectrogram adversary를 사용하여 training을 단순화하고 속도를 향상함 이때 training을 stabilize 할 수 있는 loss balancer mechanism을 도입 논문 (Meta AI 2022) : Paper..

LightCodec: A High Fidelity Neural Audio Codec with Low Computation ComplexityNeural codec은 높은 computational complexity의 한계를 가지고 있음- 즉, complexity를 줄이는 경우 성능이 현저하게 저하되므로 low computation resource에서 사용하기 어려움LightCodec높은 품질을 유지하면서 낮은 complexity를 가지는 neural audio codecFrequency band division에 기반한 structure를 도입하고 Within Band-Across Band Interaction (WBABI) module을 통해 subband에 대한 feature를 학습하도록 함Quant..

AudioDec: An Open-Source Streaming High-Fidelity Neural Audio CodecTelecommunication과 같은 live application에 적합한 audio codec은 다음의 속성을 만족해야 함- Compression : signal을 transmit 하는데 필요한 bitrate는 가능한 낮아야 함- Latency : encoding, decoding은 최소한의 delay만으로 수행되어야 함- Reconstruction quality of signalAudioDec위 3가지 property를 모두 만족하는 streamable, real-time neural audio codec6ms 미만의 GPU에서 12kbps 만으로 동작하면서 고품질의 48kHz ..