티스토리 뷰
Paper/TTS
[Paper 리뷰] MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
feVeRin 2024. 5. 7. 09:51반응형
MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
- Text-to-Speech에서 human-level diversity를 반영할 필요가 있음
- MQTTS
- Mel-spectrogram based autoregressive model의 alignment mismatch 문제를 해결하기 위해 multiple code group으로 학습된 discrete code를 활용
- 합성 품질 향상을 위해 clean silence prompt를 활용하고 multiple code generation과 monotonic alignment architecture를 도입
- 논문 (AAAI 2023) : Paper Link
1. Introduction
- Text-to-Speech (TTS)에서 사용되는 standard corpora는 대부분 통제된 환경에서 녹음된 음성을 활용함
- 즉, TTS 모델은 paralinguistic information을 전달하는 다양한 prosody를 반영하기 어려움
- 이를 해결하기 위해, YouTube나 podcast 등에서 수집된 real-world speech의 사용을 고려할 수 있음
- 이때 해당 real-world speech로 TTS를 학습하기 위해서는, 기존의 통제된 data와 달리 prosody나 background noise의 higher variation에 대응할 수 있어야 함 - 실제로 Tacotron2와 같은 mel-spectrogram based autoregressive model은 추론 중에 적절한 text-audio alignment를 생성하지 못하므로 unintelligible speech가 발생함
- BUT, training 중에는 명확한 alignment가 학습될 수 있기 때문에, 추론 시 발생하는 alignment 실패는 decoding procedure의 error accumulation에서 비롯된다고 볼 수 있음
- 이때 mel-spectrogram을 learned discrete codebook으로 대체하는 경우, error accumulation 문제를 해결 가능
- Discrete representation의 input noise에 대한 resiliency가 더 높기 때문
-> 그래서 real-world speech를 활용과 추론 alignment 실패 문제를 해결하기 위해 multi-codebook을 도입한 MQTTS를 제안
- MQTTS (Multi-codebook vector Quantized TTS)
- Alignment 실패를 해결하기 위해 learned discrete codebook을 도입
- 이때 single codebook은 real-world speech에 대해 distorted reconstruction이 발생하므로 다양한 prosody pattern을 반영하기에 충분하지 않음
- 따라서 multi-code sampling과 monotonic alignment를 위해 multiple codebook에 적합한 architecture를 설계 - 추가적으로 추론 중에 clean silence audio prompt를 사용하여 real-world noisy corpus에 대해 clean speech를 생성할 수 있도록 함
< Overall of MQTTS >
- Mel-spectrogram based autoregressive model의 alignment mismatch 문제를 해결하기 위해 multiple code group으로 학습된 discrete code를 활용
- 합성 품질 향상을 위해 clean silence prompt를 활용하고 multiple code generation과 monotonic alignment architecture를 도입
- 결과적으로 기존 모델들과 비교하여 다양하고 우수한 합성 성능을 달성
2. MQTTS
- MQTTS의 training은 two-stage로 구성됨
- First stage에서 quantizer는 quantization loss $\mathcal{L}_{VQ}$와 input $\mathbf{x}$와 output $\mathbf{y}$ 간의 reconstruction loss를 jointly minimizing 하여 raw waveform $\mathbf{x}$를 discrete code $\mathbf{c}=\{c_{t}\}, t\in[1,...,T]$로 mapping 함
- 이때 discriminator는 additional adversarial loss를 사용하여 reconstruction을 guide 함
- 여기서 quantizer의 encoder, decoder를 각각 $Q_{E}, Q_{D}$, discriminator를 $D$, learnable codebook embedding을 $N$개 codebook에 대해 $G_{i}$로 나타냄 ($i\in[1,...,N]$) - Second stage에서는 quantize를 fix 하고, multi-speaker TTS와 phoneme sequence $\mathbf{h}$를 활용하기 위해 speaker embedding $\mathbf{s}$를 condition으로 $\mathbf{c}$에서 autoregressive generation을 수행하는 transformer를 training 함
- First stage에서 quantizer는 quantization loss $\mathcal{L}_{VQ}$와 input $\mathbf{x}$와 output $\mathbf{y}$ 간의 reconstruction loss를 jointly minimizing 하여 raw waveform $\mathbf{x}$를 discrete code $\mathbf{c}=\{c_{t}\}, t\in[1,...,T]$로 mapping 함
- Quantization of Raw Speech
- Quantizer Architecture
- Quantizer decoder $Q_{D}$와 discriminator $D$의 backbone으로 HiFi-GAN을 채택함
- 이때 input mel-spectrogram을 discrete code의 learned embedding으로 대체함
- $Q_{E}$의 경우 deconvolution layer를 convolution layer로 대체하는 방식으로 HiFi-GAN을 reverse 함 - 여기서 navie 하게 HiFi-GAN architecture를 사용하면 quantization loss $\mathcal{L}_{VQ}$와 training divergence가 explose 함
- HiFi-GAN의 residual block의 unnormalized output 때문에 발생 - 따라서 aggregation 이전에 모든 residual block의 output에 group 당 16개 channel이 있는 group normalization을 적용
- 추가적으로 decoder $Q_{D}$의 input에 speaker embedding을 broadcast-add 함
- Quantizer decoder $Q_{D}$와 discriminator $D$의 backbone으로 HiFi-GAN을 채택함
- Multiple Codebook Learning
- Single codebook을 사용하면 real-world speech가 제대로 reconstruction 되지 않으므로, vq-wav2vec의 concept를 활용하여 multiple codebook으로 quantization을 수행함
- 이때 각 $c_{t}$는 $N=4$의 code로 represent 되고 final embedding은 $N$ code embedding의 concatenation과 같음 - 먼저 codebook $G_{i}$에 해당하는 individual code를 $c_{t,i}$라고 하자:
(Eq. 1) $c_{t,i}=\arg\min_{z\in G_{i}}||z_{t,i}^{c}-z||_{2}$
- 여기서 $Q_{E}$의 output인 $z_{t}^{c}$에서 discrete code $c_{t,i}$를 얻기 위해 $z_{t}^{c}$의 embedding dimension을 $N$개의 equal part로 slice 하고, 각 part를 $z_{t,i}^{c}$로 나타냄 - 그러면 decoder에 대한 input $z_{t}^{q}$는 straight-through gradient estimator에 의해 얻어짐:
(Eq. 2) $z_{t,i}^{q}=z_{t,i}^{c}+\mathrm{sg}[G_{i}(c_{t,i})-z_{t,i}^{c}],\,\,\, z_{t}^{q}=\mathrm{concat}[z_{t,i}^{q}]$
- $\mathrm{sg}[\cdot]$ : stop gradient operator, $G_{i}(\cdot)$ : 주어진 code의 embedding을 반환하는 역할, $\mathrm{concat}[\cdot]$ : embedding dimension의 모든 code를 concatenate - 결과적으로 final loss $\mathcal{L}_{F}$는 HiFi-GAN loss term $\mathcal{L}_{GAN}$과 additional quantization loss $\mathcal{L}_{VQ}$로 구성됨:
(Eq. 3) $\mathcal{L}_{F}=\lambda\mathcal{L}_{VQ}(Q_{E},Q_{D},G)+\mathcal{L}_{GAN}(Q_{E},Q_{D},G,D)$
(Eq. 4) $\mathcal{L}_{VQ}(Q_{E},Q_{D},G)=\mathbb{E}_{x}\left[\frac{1}{T}\sum_{i=1}^{N}\sum_{t=1}^{T}(|| \mathrm{sg}[z_{t,i}^{c}]-z_{t,i}^{q} ||_{2}^{2}+\gamma || z_{t,i}^{c}-\mathrm{sg}[z_{t,i}^{q}]||_{2}^{2})\right]$
- $\gamma, \lambda$ : 각각 commitment loss와 quantization loss weight에 대한 hyperparameter
- Single codebook을 사용하면 real-world speech가 제대로 reconstruction 되지 않으므로, vq-wav2vec의 concept를 활용하여 multiple codebook으로 quantization을 수행함
- Conditional Synthesis with Transformer
- Second stage에서는 past sequence $\mathbf{c}_{<t}$가 주어지면 $c_{t}$를 autoregressive 하게 생성하도록 transformer를 training 함
- 아래 그림과 같이 transformer는 global speaker embedding $s=E_{SPK}(x)$와 phoneme sequence $\mathbf{h}$로 additionally condition 됨
- 이때 $E_{SPK}$에 대해 pre-trained speaker embedding extractor와 2개의 linear layer, ReLU activation을 사용함
- Transformer는 log-likelihood를 최대화하도록 training 됨:
(Eq. 5) $\mathcal{L}_{T}=\mathbb{E}_{\mathbf{c}}\left[-\sum_{t}\log p(c_{t}|\mathbf{c}_{<t},\mathbf{s},\mathbf{h})\right]$
- Architectural Design
- 일반적인 encoder-decoder architecture는 low-level에서 high-level representation까지 complex semantic correlation이 있다고 가정함
- BUT, TTS에서 cross attention은 low-level audio representation을 사용하여 alignment pattern을 pre-estimating 하는 데 사용되는 단순한 unique alignment임
- 따라서 MQTTS는 decoder의 마지막 layer에만 cross attention layer를 적용하고 unique alignment를 얻기 위해 single-head cross attention을 사용
- 나아가 이러한 unique alignment map을 통해 monotonic alignment를 활용할 수 있음 - 결과적으로 ALiBi로 positional encoding을 대체하여 모델이 encoder, decoder 모두에 대해 long input sequence를 합성할 수 있도록 함
- Multi-output Transformer
- Sampling technique은 autoregressive model의 성능에 상당한 영향을 미치지만 multi-code setting에 적용하는 것은 어려움
- 단순하게 linear layer를 사용하여 한 번에 $N$개의 code를 예측하도록 하면, 각 code의 distribution에만 개별적으로 access 할 수 있음
- Nucleus sampling은 $N$ code의 joint distribution에 대해 top-$p$ candidate가 필요하므로 theoretically infeasible 함 - 위 문제를 해결하기 위해, MQTTS는 additional transformer decoder를 사용하여 code의 conditional distribution을 explicitly modeling 하는 방식을 사용하고 이를 sub-decoder module이라고 함
- Time sequence에 따라 동작하는 main decoder와 달리 sub-decoder는 fixed size $N$의 codebook group에 걸쳐 sequential 하게 동작함
- 아래 그림과 같이, time $t$에서 sub-decoder는 main decoder의 output state인 $O_{t}$를 starting condition으로 하고 주어진 $\mathbf{c}_{t,<i}$에 대해 sequential 하게 $c_{t, i}$를 생성함
- 여기서 positional encoding 없이 각 codebook group에 대해 separate embedding을 사용 - 이를 통해 각 conditional distribution $p(c_{t,i}| \mathbf{c}_{t,<i},O_{t})$에 대해 time $t$에서 nucleus sampling을 각각 적용할 수 있음
- 전체 $c_{t}$를 생성한 후, $c_{t}$는 next step $O_{t+1}$을 생성하기 위해 main decoder에 autoregressively feedback 됨
- Sampling technique은 autoregressive model의 성능에 상당한 영향을 미치지만 multi-code setting에 적용하는 것은 어려움
- Repetition Token
- Speech signal은 high temporal similarity를 보이므로 transformer가 repeating code를 예측하도록 만들 수 있음
- 따라서 additional token으로 repetition token을 도입하여 해당 transition을 explicitly modeling 함
- 즉, consecutive repeated token은 해당 repetition token으로 대체되고, 추론 시에는 original token으로 decode 됨
- Inference
- Transformer inference를 위해 nucleus sampling을 채택하고 fully decoded code를 $Q_{D}$로 전달하여 raw waveform을 reconstruct 함
- Monotonic Alignment
- 먼저 $A(i,j)$를 step $i$의 encoder state와 step $j$의 decoder state 간의 cross attention value라고 하자
- MQTTS의 cross attention은 single-head, single-layer이므로 $A(i,j)$는 unique 함 - 그러면 추론 중에 time $t$의 새로운 decoder state가 주어지면, 전체 encoder state sequence 대신 $[b_{k},b_{k}+1,...,b_{k}+N_{w}]$의 $N_{w}$ encoder state에 대한 cross attention만 계산할 수 있음
- 이때 $b_{k}$는 recursive 하게 정의됨:
(Eq. 6) $b_{0}=0, \,\,\, b_{k+1}=\left\{\begin{matrix}
b_{k}+1, & \textrm{if}\,\, \frac{\exp\{A(b_{k},k)\}}{\sum_{i=0}^{N_{w}}\exp\{ A(b_{k},k+i)\}}<\frac{1}{N_{w}} \\
b_{k}, & \textrm{otherwise} \\
\end{matrix}\right.$ - Decoder는 sequential 하게 한 번에 encoder state의 특정 context window $N_{w}$에만 attend 할 수 있으므로,
- Context window는 $b_{k}$의 first encoder state의 Softmax attention weight가 주어진 threshold $N_{w}^{-1}$보다 낮은 경우에만 step forward 됨 - 일반적으로 $N_{w}$가 작을수록 phonetic context가 작아지는 대신, monotonic alignment가 stricter 해짐
- 실험적으로 $N_{w}$가 3에서 6 사이일 때, 잘 동작하는 것으로 나타남
- 먼저 $A(i,j)$를 step $i$의 encoder state와 step $j$의 decoder state 간의 cross attention value라고 하자
- Audio Prompt
- Noisy corpus에 대해 training 할 때, 추론 중에 undesired background noise가 sampling 될 수 있음
- 따라서 MQTTS가 clean speech를 합성할 수 있도록, silence clip에서 $Q_{E}$로 encoding 된 code의 3 frame을 앞부분에 추가함
- Clean speech 이전에는 clean silence가 있는 경우가 많으므로, 모델은 background noise 없이 합성을 수행할 수 있음
- Monotonic Alignment
3. Experiments
- Settings
- Dataset : GigaSpeech
- Comparisons : VITS, TransformerTTS
- Results
- Quantizer Analysis
- Single codebook ($N=1$)을 사용하는 경우, input phone sequence가 크게 distort 됨
- 즉, original input을 reconstruct 하기 위해서는 multiple code group이 필요함 - 결과적으로 mel-spectrogram 기반의 HiFi-GAN과 비교하여 MQTTS의 quantizer는 $N=4$의 160 code size를 사용할 때 MOS 측면에서 가장 우수한 성능을 보임
- Single codebook ($N=1$)을 사용하는 경우, input phone sequence가 크게 distort 됨
- Performance
- 전체적인 성능 측면에서 MQTTS는 가장 우수한 합성 성능을 보임
- 한편으로 monotonic alignment, sub-decoder, duration predictor를 각각 제거하는 경우, 성능 저하가 발생함
- 즉, 제안된 approach가 MQTTS의 성능 향상에 유효하다고 볼 수 있음
- Autoregressive model의 alignment와 MQTTS의 alignment를 비교해 보면, Tacotron2는 inference alignment에 완전히 실패하는 반면, MQTTS는 명확한 alignment를 생성할 수 있음
- TransformerTTS의 경우 alignment가 후반부 sequence까지 이어지지 않으므로 초반부의 text 이후로는 unrecognizable noise가 발생하는 것으로 나타남
- VITS와 MQTTS를 비교해 보면, pitch contour 측면에서 MQTTS가 주어진 text에 대해 더 다양한 음성을 합성할 수 있는 것으로 나타남
- Audio Prompt and SNR
- 다양한 표준 편차 $\sigma$에서 추출한 audio prompt white noise에 대한 SNR을 비교해보면
- $\sigma$가 증가함에 따라 SNR이 감소하므로 MQTTS가 prompt에 의해 guide 된다고 볼 수 있음
반응형
'Paper > TTS' 카테고리의 다른 글
댓글