Generative De-quantization for Neural Speech Codec via Latent DiffusionLow-bitrate speech coding에서 end-to-end network는 compact, expressive feature와 powerful decoder를 학습하는 것을 목표로 함- BUT, 여전히 complexity와 speech quality 측면에서 한계가 있음LaDiffCodecLow-dimensional discrete token을 학습하기 위해 end-to-end codec을 구성Latent diffusion model을 사용하여 coded feature를 high-dimensional continuous space로 de-quantize추가적으로 ove..
Single-Codec: Single-Codebook Speech Codec towards High-Performance Speech GenerationMulti-codebook speech codec은 multi-sequence prediction으로 인해 efficiency와 robustness에 bottleneck이 발생함Single-CodecDisentangled VQVAE를 통해 speech를 time-invariant embedding과 phonetically-rich discrete sequence로 decouple 하는 single-codebook, single-sequence codec특히 encoder에서Temporal information을 반영하는 BLSTM module을 통해 co..
ScoreDec: A Phase-Preserving High-Fidelity Audio Codec with a Generalized Score-based Diffusion Post-FilterWaveform-domain end-to-end neural codec은 low-bitrate의 coding이 가능하지만 여전히 natural audio와의 품질 차이가 존재함해당 neural codec의 성능을 향상하기 위해서는 GAN training이 필요하지만, original phase information preserving을 방해한다는 문제가 있음ScoreDecGAN training에서 original phase preserving을 위해, complex spectral domain에서 score-base..
Fewer-Token Neural Speech Codec with Time-Invariant CodesNeural codec은 speech를 discrete token으로 변환하는 데 사용되지만, excessive token sequence는 오히려 prediction accuracy에 부정적인 영향을 줄 수 있음TiCodecTime-invariant information을 별도의 code로 encoding/quantizing하여 encoding에 사용되는 frame-level information의 양을 줄임Utterance에서 time-invariant code의 consistency를 향상하기 위해, time-invariant encoding consistency loss를 도입논문 (ICASSP ..
CQNV: A Combination of Coarsely Quantized Bitstream and Neural Vocoder for Low Rate Speech Coding기존 neural codec architecture 내에는 parameter quantization의 redundancy가 나타남CQNVParameteric codec의 coarsely quantized parameter를 neural vocoder와 결합한 neural codecParameter processing module을 도입해 speech coding parameter의 bitstream을 강화하고 reconstruction 품질을 개선논문 (INTERSPEECH 2023) : Paper Link1. Introduction..
SRCodec: Split-Residual Vector Quantization for Neural Speech CodecEnd-to-End neural speech coding은 residual vector quantization을 통해 수행될 수 있지만, 가능한 적은 bit로 latent variable을 quantize 하는 것은 어려움SRCodecLatent representation을 동일한 dimension을 가지는 두 part로 split 하는 split-residual vector quantization을 채택한 fully convolutional encoder-decoder network- Low-dimensional feature와 high-dimensional feature 간의 res..