GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech SynthesisMulti-speaker text-to-speech 모델을 fine-tuning 하여 limited training data로 다양한 speaker의 음성을 합성할 수 있음- BUT, 여전히 real speech sample과 비교하여 합성 결과의 품질이 떨어짐GANSpeechNon-autoregressive Text-to-Speech 모델에 adversarial training을 적용추가적으로 adversarial training에서 사용되는 feature matching loss에 대한 automatic scaling method를 도입논문 (INTERSPEE..
Ultra-Lightweight Neural Differential DSP Vocoder for High Quality Speech SynthesisNeural vocoder를 통해 고품질의 audio를 합성할 수 있지만, 여전히 low-end device에서는 real-time으로 사용하기 어려움한편으로 Digital Signal Processing 기반의 vocoder는 lightweight FFT를 통해 구현될 수 있으므로 neural vocoder보다 빠르게 동작가능함- BUT, vocal tract의 approximate representation에 대해 over-smoothed acoustic model prediction을 사용하므로 합성 품질이 저하되는 경향이 있음DDSP VocoderDi..
DeviceTTS: A Small-Footprint, Fast, Stable Network for On-device Text-to-Speech기존의 tex-to-speech 모델은 크고 복잡한 network로 구성되기 때문에, 원활한 배포를 지원할 수 있는 on-device text-to-speech에 적합한 모델이 필요함DeviceTTSDuration predictor를 통해 encoder, decoder 간의 bridge를 제공모델 size를 줄이기 위해 Deep Feedforward Sequential Memory Network (DFSMN)을 도입추가적으로 추론 속도를 높이기 위해, mix-resolution decoder를 채택논문 (ICASSP 2021) : Paper Link1. Introd..
BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform GenerationSTFT domain 내에서 feature extraction과 reverse waveform generation이 가능한 vocoder를 구성할 수 있음BiVocoderFeature extraction을 위해 STFT에서 파생된 amplitude, phase spectrea를 input으로 사용하고, 이를 convolution network를 통해 long-frame-shift, low-dimensional feature로 변환Waveform generation을 위해 symmetric network를 채택하여 amplitude, p..
VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech SynthesizersText-to-Speech를 위해 language modeling을 활용할 수 있음VALL-ENeural audio codec에서 파생된 discrete code를 사용하여 training 된 language model기존의 continuous signal regression이 아닌 conditional language modeling으로 text-to-speech를 접근특히 in-context learning capability를 제공하여 unseen speaker를 3초 이내의 acoustic prompt를 통해 personalized speech를 합성 가능논문..
Puffin: Pitch-Synchronous Neural Waveform Generation for Fullband Speech on Modest DevicesLow-powered device에서 사용할 수 있는 neural vocoder가 필요함PuffinDifferentiable pitch synchronous overlap-add를 사용하여 adversarially training 하고,Speech sample을 생성하기 위해 pitch synchronous inverse STFT를 채택논문 (ICASSP 2023) : Paper Link1. IntroductionNeural vocoder는 data-driven 방식으로 human speech 수준의 합성 품질을 달성하고 있음이러한 음성 합성 모..
Fewer-Token Neural Speech Codec with Time-Invariant CodesNeural codec은 speech를 discrete token으로 변환하는 데 사용되지만, excessive token sequence는 오히려 prediction accuracy에 부정적인 영향을 줄 수 있음TiCodecTime-invariant information을 별도의 code로 encoding/quantizing하여 encoding에 사용되는 frame-level information의 양을 줄임Utterance에서 time-invariant code의 consistency를 향상하기 위해, time-invariant encoding consistency loss를 도입논문 (ICASSP ..
CQNV: A Combination of Coarsely Quantized Bitstream and Neural Vocoder for Low Rate Speech Coding기존 neural codec architecture 내에는 parameter quantization의 redundancy가 나타남CQNVParameteric codec의 coarsely quantized parameter를 neural vocoder와 결합한 neural codecParameter processing module을 도입해 speech coding parameter의 bitstream을 강화하고 reconstruction 품질을 개선논문 (INTERSPEECH 2023) : Paper Link1. Introduction..
EdiTTS: Score-based Editing for Controllable Text-to-SpeechText-to-Speech를 위해 score-based modeling을 기반으로 speech editing method를 적용할 수 있음EdiTTSAdditional training이나 task-specific optimization 없이 content, pitch 측면에서 audio에 대한 targeted, granular editing을 허용Gaussian prior space에서 coarse, deliberate perturbation을 적용하여 diffusion model에서 desired behavior를 유도하고, mask와 softening kernel을 통해 target region에..