* Python을 기준으로 합니다문자열 검색 - KMP 알고리즘 (Knuth-Morris-Pratt Algorithm)- 개념KMP (Knuth-Morris-Pratt) 알고리즘 : 불일치가 감지되기 이전까지의 문자열은 다시 비교할 필요가 없다는 점을 활용함이를 통해 $O(NM)$의 time complexity를 가지는 Naive approach에 비해 KMP 알고리즘은 $O(N+M)$의 time complexity로 줄일 수 있음KMP를 위한 문자열 전처리 : 불일치가 발생했을 때 건너뛸 문자 수를 결정하기 위함먼저 건너뛸 문자 수를 결정하기 위해, 패턴 크기 `M`과 동일한 크기의 배열 `lps[]`를 선언함- `lps[]`는 길이가 최대인 접두사(prefix)-접미사(suffix) 배열을 의미이후 ..
SANE-TTS: Stable and Natural End-to-End Multilingual Text-to-SpeechStable 하고 natural 한 end-to-end multilingual text-to-speech 모델이 필요함SANE-TTSMultilingual synthesis의 naturalness를 향상하기 위해 domain adversarial training을 도입추가적으로 speaker regularization loss를 적용하여 duration predictor의 speaker embedding을 zero-vector로 대체해 cross-lingual synthesis를 stablize 함논문 (INTERSPEECH 2021) : Paper Link1. IntroductionM..
DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-SpeechCross-lingual text-to-speech는 speaker timbre를 정확하게 retain 하면서 nativeness를 반영하는 것이 어려움DSE-TTSMel-spectrogram 보다 더 적은 speaker information을 포함하는 vector-quantized acoustic feature를 활용해당 acoustic feature를 기반으로 speaking style을 반영하는 Dual Speaker Embedding을 도입- 한 embedding은 linguistic speaking stlye을 학습하기 위해 acoustic model에 전달되고,- 다른 embedd..
어느새 6월도 되었고, 중간 결산도 할 겸 인상적이었던 상반기 앨범들을 뽑아봅시다.선정 기준 : 작성자 마음대로 뽑습니다.2024년도 상반기 앨범 결산 1. Bayside - - Pop Punk, Emo-Pop: 2024년 상반기 최고의 앨범은 미국의 팝 펑크 밴드 Bayside의 가 차지했습니다. 적당히 무게감 있는 장르 최적화 보컬과 중독적인 멜로디라인들이 흠결 없이 잘 어우러진 앨범입니다.Bayside - 'Good Advice' 2. Casey - - Post-Hardcore, Shoegaze: 멜로딕 하드코어를 기반으로 Alcest 식 슈게이즈 사운드를 살짝 엮어낸 올 상반기 최고의 하드코어 수작입니다. 특히 감정적인 멜로디 사이에서 간간히 폭발하는 하드코어 보컬은 그 쓸쓸한 상실감을 더욱 증폭..
High-Fidelity Audio Compression with Improved RVQGANLanguage model의 핵심 component는 high-dimensional natural signal을 low-dimensional discrete token으로 compress 하는 neural codec임Improved RVQGANAdversarial, reconstruction loss와 vector quantization technique을 도입하여 high-fidelity의 audio compression을 보장추가적으로 speech, environment, music 등의 다양한 domain에 대한 universal compression을 지원논문 (NeruIPS 2023) : Paper Li..
AutoTTS: End-to-End Text-to-Speech through Differentiable Duration ModelingText-to-Speech 모델은 일반적으로 external aligner가 필요하고, decoder와 jointly train 되지 않으므로 최적화의 한계가 있음AutoTTSInput, output sequence 간의 monotonic alignment를 학습하기 위해 differentiable duration method를 도입Expectation에서 stochastic process를 최적화하는 soft-duration mechanism을 기반으로 하여 direct text-to-waveform synthesis 모델을 구축추가적으로 adversarial train..