InstructTTS: Modelling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt Expressive Text-to-Speech는 다양한 speech pattern을 반영하는 것을 목표로 하고, 이때 style을 control 하는 style prompt로 natural language를 활용할 수 있음 InstructTTS Self-supervised learning과 cross-modal metric learning을 활용하고 robust sentence embedding model을 얻기 위해 3-stage training을 제시 일반적인 mel-spectrogram 대신 vector-quantized ac..
SuperCodec: A Neural Speech Codec with Selective Back-Projection Network Neural speech coding은 우수한 compression 성능을 보여주지만, low bitrate에서 fine detail reconstruction의 한계가 있음 SuperCodec Low bitrate에서도 뛰어난 성능을 달성하기 위해 selective feature fusion을 가지는 back-projection method를 활용한 neural speech codec 특히 encoder, decoder의 standard up-/down-sampling layer를 대체하기 위해 Selective Up-sampling Back Projection, Selec..
PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions Text-to-Speech에서 style control을 위해서는 개별적인 style category가 있는 expressive speech recording이 필요함 BUT, 실적용에서는 target style에 대한 referecne speech 없이 desired style에 대한 text description을 활용하는 것이 더 적합하다고 볼 수 있음 PromptStyle Text prompt-guided cross-speaker style transfer를 목표로 VITS와 cross-modal style encoder를 활용 ..
* Python을 기준으로 합니다 최단 경로 - 벨만-포드 (Bellman-Ford) 알고리즘 - 개념 벨만-포드 알고리즘 : 최단 경로를 찾는 알고리즘 중 하나로, 매 단계마다 모든 간선의 가중치를 확인하여 최단 거리를 갱신하는 방식으로 동작함 다익스트라와 달리 음의 가중치를 가지는 그래프에서도 동작 가능 벨만-포드 알고리즘의 동작 시작 노드를 선정하고, 최단 거리 테이블을 시작 노드는 0 나머지 노드는 최대값 INF로 초기화 아래 과정을 노드 개수 -1 만큼 반복 - 현재 노드에서 갈 수 있는 각 노드들에 대해, 전체 노드 각각을 거쳤을 때 더 짧은 최단 거리가 있는지 확인 - 더 짧은 최단 거리가 있다면 최단 거리 테이블을 갱신 위 과정을 한번 더 수행하여 갱신되는 최단 거리가 있는지 확인 - 있다..
PromptTTS++: Controlling Speaker Identity in Prompt-based Text-to-Speech using Natural Language Descriptions Natural language description을 사용하여 speaker identity를 control 하는 prompt-based text-to-speech를 수행할 수 있음 PromptTTS++ Speaker identity를 control 하기 위해, speaking style과 independent 하도록 설계된 voice characteristic을 설명하는 speaker prompt를 도입 Diffusion-based acoustic model을 사용하여 다양한 speaker factor를 모델링..
* Python을 기준으로 합니다 최단 경로 - 다익스트라 (Dijkstra) 알고리즘 - 개념 다익스트라 알고리즘 : 그래프의 최단 경로를 찾기 위한 알고리즘 중 하나로, BFS를 기반으로 가장 비용이 적은 노드만을 선택하는 그리디 방식으로 동작함 그래프에서 간선의 가중치가 모두 양수라는 조건하에서 사용 가능함 - 다익스트라 알고리즘은 각 노드에 대한 최단 거리를 배열 저장하고 계속 갱신한다는 특징이 있음 다익스트라 알고리즘의 동작 과정 시작 노드를 설정하고, 최단 거리를 저장할 배열을 매우 큰 값(INF)으로 초기화함 방문하지 않은 노드 중에서 가장 최단 거리(최소 비용)를 가진 노드를 선택함 해당 노드를 거쳐 다른 노드로 가는 최단 거리를 계산하고, 현재까지 구한 최단 거리와 비교하여 작은 값으로 ..
FeatherWave: An Efficient High-Fidelity Neural Vocoder with Multi-Band Linear Prediction Multi-band signal processing과 linear predictive coding을 결합하여 neural vocoder를 구성할 수 있음 FeatherWave LPCNet에 multi-band linear predictive coding을 결합한 모델 Multi-band method를 활용하여 여러 sample을 병렬적으로 빠르게 합성할 수 있도록 함 논문 (INTERSPEECH 2020) : Paper Link 1. Introduction Text-to-Speech (TTS)에서 vocoder는 human-like 음성을 합성하는..
* Python을 기준으로 합니다 위상 정렬 (Topology Sort) - 개념 위상 정렬 : 방향 비순환 그래프 (Directed Acyclic Graph, DAG)의 모든 노드를 순서대로 나열하는 것 진입차수 (Indegree) : 그래프에서 특정 노드를 가리키는 간선의 개수 위상 정렬의 동작 진입차수가 0인 노드를 큐에 push 큐에서 노드를 pop 하면서, 인접 노드의 진입차수를 1씩 줄임 이후 진입차수가 0이 된 노드를 큐에 push 위 2~3번 과정을 큐가 빌 때까지 반복 위상 정렬의 동작 과정에서 모든 노드들을 방문하기 전에 큐가 비어지면, cycle이 존재하는 것으로 볼 수 있음 - Cycle이 존재하는 경우 어떠한 노드도 큐에 push 되지 못하기 때문 - BUT, 일반적으로 위상 정렬..
SpatialCodec: Neural Spatial Speech CodingMulti-channel recording에 embed 된 spatial cue를 정확하게 reconstruct 하고 preserve 하기 위한 효과적인 encoding 방식이 필요함SpatialCodecSingle-channel neural sub-band와 SpatialCodec의 two phase로 구성된 neural audio coding framework Neural sub-band codec은 low bitrate로 reference channel을 encode 하고SpatialCodec은 decoder end에서 정확한 multi-channel reconstruction을 위해 relative spatial info..