본문 바로가기

TTS

(13)
Global style token [1] Reference embedding: Skerry-Ryan, RJ, Battenberg, Eric, Xiao, Ying, Wang, Yux- uan, Stanton, Daisy, Shor, Joel, Weiss, Ron J., Clark, Rob, and Saurous, Rif A. Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron. arXiv preprint, 2018. [2] Global style token: Y. Wang et al., “Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synt..
Deep Voice 3 https://github.com/hash2430/dv3_world hash2430/dv3_world Deep voice 3 implementation of r9y9 is modified to support WORLD vocoder. - hash2430/dv3_world github.com https://github.com/hash2430/Neural-voice-cloning hash2430/Neural-voice-cloning This repo is started from my dv3_world to implement 'speaker-encoder' approach of 'Neural voice cloning using a few samples' - hash2430/Neural-voice-cloning..
Transformer TTS TransformerTTS Transformer는 natural langauge processing 분야에서 recurrent neural entwork를 없애고 훈련을 병렬로 가속화 진행해 가속화 하기 위한 목적으로 고안된 self-attention 기반의 모델이다. 이 모델이 Tacotron, Tacotron2 등에서 공통적으로 보이는 TTS 구조와 결합된 것이 Transformer TTS이다. Tacotron2와의 차이점 네트워크 구조: RNN을 대체하는 self-head attention과 이를 ensembling한 multi-headattention Self attention: 일반적인 attention에서는 key 신호와 query 신호, value 신호가 각각 따로 정의 되어 key 신호와 ..
Tacotron2 Tacotron과 동일한 점: encoder prenet, encoder, attention, decoder prenet, decoder 모듈로 이루어져, 큰 틀에서는 동일하다.이 '큰 틀'은아래와 같다. Decoder prenet: 2-layer linear projection으로써, Attention 과정에서 encoder의 출력인 text space와 decoder 출력인 acoustic space를 비교 가능하게 동일 space로 매핑하는 역할 Encoder prenet: 3-layer convolution network로 이루어져, character 입력을 받아, convolution kernel의 크기에 따라 이웃 character를 반영해 요약함으로써, 전통적인 TTS나 ASR에서의 n-gr..
CondConv: Conditionally Parameterized Convolutions for Efficient Inference 보호되어 있는 글입니다.