'2025/01 글 목록

[Paper 리뷰] StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow Matching

StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow MatchingZero-Shot Voice Conversion은 다음의 한계점이 있음- Style과 timbre를 서로 다른 unseen speaker에게 independently transfer 할 수 없음- Autoregressive modeling이나 sampling step으로 인해 추론 속도가 느림- Converted sample의 품질과 similarity는 여전히 만족스럽지 않음StableVCSpeech를 linguistic content, timbre, style로 decompose하고 conditional flow matching module을 사용하..

Paper/Conversion 2025. 1. 28. 14:40

[Paper 리뷰] VoiceMixer: Adversarial Voice Style Mixup

VoiceMixer: Adversarial Voice Style MixupVoice conversion은 source speech와 voice style을 충분히 decompose 하지 못해 여전히 한계가 있음VoiceMixerSelf-supervised representation learning을 활용한 information bottleneck을 통해 content와 style을 decompose 함각 information에 대한 adversarial feedback을 통해 더 나은 generalization을 달성논문 (NeurIPS 2021) : Paper Link1. IntroductionVoice Conversion (VC)는 source speaker의 content information은 유..

Paper/Conversion 2025. 1. 27. 18:24

[Paper 리뷰] Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer

Generative Pre-trained Speech Language Model with Efficient Hierarchical TransformerSpeech language model은 여전히 neural audio codec의 long acoustic sequence를 modeling 하는데 한계가 있음Generative Pre-trained Speech Transformer (GPST)Audio waveform을 2가지의 discrete speech representation으로 quantize 하고 hierarchical transformer architecture에 integrate 함End-to-End unsupervised manner로 train 됨으로써 다양한 speaker ident..

Paper/Language Model 2025. 1. 26. 12:51

[Paper 리뷰] SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

SpeechX: Neural Codec Language Model as a Versatile Speech TransformerAudio-text prompt 기반의 speech model은 text-to-speech 외의 다양한 task를 처리하는 데는 한계가 있음SpeechXZero-shot Text-to-Speech, Speech Editing, Noise Suppression, Target Speaker Extraction 등의 다양한 task를 지원하는 speech modelNeural codec language modeling과 task-dependent prompting에 기반한 multi-task learning을 도입논문 (TASLP 2024) : Paper Link1. Introducti..

Paper/Language Model 2025. 1. 25. 12:26

[Paper 리뷰] FluentTTS: Text-dependent Fine-grained Style Control for Multi-style TTS

FluentTTS: Text-dependent Fine-grained Style Control for Multi-style TTSNeural text-to-speech model은 local prosodic variation을 flexibly control 할 수 있어야 함FluentTTSUtterance-wise global style embedding을 condition으로 하여 각 text의 fundamental frequency $F0$를 예측함추가적으로 global utterance-wise embedding과 local $F0$ embedding을 input으로 사용하는 multi-style encoder를 통해 multi-style embedding을 추정함논문 (INTERSPEECH 202..

Paper/TTS 2025. 1. 13. 11:12

[Paper 리뷰] Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal SupervisionMinimal supervision으로 train 할 수 있는 multi-speaker text-to-speech model이 필요함SPEAR-TTSText to High level semantic token (Reading), Semantic token to Low-level acoustic token (Speaking)의 2가지 discrete speech representation을 combining 하여 text-to-speech를 sequence-to-sequence task로 casting특히 abundant audio-only data를 사용하여 Speak..

Paper/Language Model 2025. 1. 8. 16:31

이전 1 2 다음

이전 다음

최근에 올라온 글

최근에 달린 댓글

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Total

Today

Yesterday

Let IT Begin

티스토리툴바