본문 바로가기

TTS

(18)
AdaSpeech: Adaptive text to speech for custom voice 보호되어 있는 글입니다.
Naver Deview2020 "누구나 만드는 내 목소리 합성기2 (커스텀 보이스 파이프 라인)" 보호되어 있는 글입니다.
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment 저자: Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon TTS inference를 parallel하게 돌리기 위해서는 Transformer, GAN, Flow 같은 non-sequential한 모델이 필요할 뿐만 아니라, duration predictor가 필요하다. inference할 때 duration predictor가 없으면 autoregressive하게 한땀 한땀 입력 텍스트와 이전 프레임을 보고 이에 걸맞는 새 프레임을 생성해야 한다. 하지만 duration predictor가 있다면 parallel하게, 이전 프레임에 대한 디펜던시 없이 inference를 할 수 있다. GlowTTS는 고전적인 DP로 해결하되..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search 저자: Jaehyeon Kim, Sungwon Kim, Jungil Kong and Sungroh Yoon 소속: 카카오 엔터프라이즈, 서울대 Data science & AI Lab 1) Vocoder에 사용된 바 있는 Glow를 TTS에 적용 Inference speed Tacotron2 대비 15.7배 개선. 의심의 여지 없고 토론의 여지도 없지. 누군가 언젠가는 했어야 하는 일. Prosody control 여지 $\mu_i$, $\sigma_i$ Sampling from prior $\mu_i$, $\sigma_i$ -> $z_j$ $f_{dec}$ $z_j$ + speaker id -> $x_j$ 수식적으로 더한다는게 아니라, decoder의 모든 block에 speaker embedding 정..
Blizzard challenge 2020 1. Dataset 1) Mandarin TTS - 9.5H training data, text transcription only 2) Shanghai dialect TTS - Low resource-> 3시간의 데이터 사용 - Text * phonetic transcriptions 2. 참가자들 - 첫번째 태스크 16팀, 두번째 태스크 8팀. - Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델. - 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기) -A: 자연음 -L: Tencent -D: Sogou -E: NUS-HLT -N: Royal flush -C: NLPR -O: OPPO -G: HI..
Predicting emotion from text for TTS Emotion label specified during synthesis No. Neutral Happy Sad Angry 1 2 3 4 Emotion is predicted from language model (no emotion supervision from human during synthesis stage) No. Neutral Happy Sad Angry 1 2 3 4 5
FastSpeech: Fast, Robust and Controllable Text to Speech Transfer learning 관점에서 볼 때 이 논문에서의 source task는 합성기이며, target task는 alignment가 정확하고 합성시간이 빠른 합성기이다. 이 논문에서는 두가지 목적을 위해 transfer learning을 한다. 첫째는 추론 시간 단축이고, 둘째는 alignment 개선이다. 1) 먼저 추론 시간 단축 측면에서 설명하겠다. 이 합성기 이전의 합성기들은 비록 CNN이나 Transformer 구조를 사용하여 훈련 시간을 단축할 수 있다고 해도 추론 시간은 단축하지 못했다. 왜냐하면 합성기의 입력 텍스트와 출력 프레임의 alignment를 추론 시간에 프레임 바이 프레임으로 auto-regressive하게 예측해야 했기 때문이다. 하지만 이 논문에서는 ‘Feed-for..
CHiVE: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network