본문 바로가기

TTS

(16)
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment 저자: Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon TTS inference를 parallel하게 돌리기 위해서는 Transformer, GAN, Flow 같은 non-sequential한 모델이 필요할 뿐만 아니라, duration predictor가 필요하다. inference할 때 duration predictor가 없으면 autoregressive하게 한땀 한땀 입력 텍스트와 이전 프레임을 보고 이에 걸맞는 새 프레임을 생성해야 한다. 하지만 duration predictor가 있다면 parallel하게, 이전 프레임에 대한 디펜던시 없이 inference를 할 수 있다. GlowTTS는 고전적인 DP로 해결하되..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search 저자: Jaehyeon Kim, Sungwon Kim, Jungil Kong and Sungroh Yoon 소속: 카카오 엔터프라이즈, 서울대 Data science & AI Lab 1) Vocoder에 사용된 바 있는 Glow를 TTS에 적용 Inference speed Tacotron2 대비 15.7배 개선. 의심의 여지 없고 토론의 여지도 없지. 누군가 언젠가는 했어야 하는 일. Prosody control 여지 $\mu_i$, $\sigma_i$ Sampling from prior $\mu_i$, $\sigma_i$ -> $z_j$ $f_{dec}$ $z_j$ + speaker id -> $x_j$ 수식적으로 더한다는게 아니라, decoder의 모든 block에 speaker embedding 정..
Blizzard challenge 2020 1. Dataset 1) Mandarin TTS - 9.5H training data, text transcription only 2) Shanghai dialect TTS - Low resource-> 3시간의 데이터 사용 - Text * phonetic transcriptions 2. 참가자들 - 첫번째 태스크 16팀, 두번째 태스크 8팀. - Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델. - 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기) -A: 자연음 -L: Tencent -D: Sogou -E: NUS-HLT -N: Royal flush -C: NLPR -O: OPPO -G: HI..
Predicting emotion from text for TTS Emotion label specified during synthesis No. Neutral Happy Sad Angry 1 2 3 4 Emotion is predicted from language model (no emotion supervision from human during synthesis stage) No. Neutral Happy Sad Angry 1 2 3 4 5
FastSpeech: Fast, Robust and Controllable Text to Speech Transfer learning 관점에서 볼 때 이 논문에서의 source task는 합성기이며, target task는 alignment가 정확하고 합성시간이 빠른 합성기이다. 이 논문에서는 두가지 목적을 위해 transfer learning을 한다. 첫째는 추론 시간 단축이고, 둘째는 alignment 개선이다. 1) 먼저 추론 시간 단축 측면에서 설명하겠다. 이 합성기 이전의 합성기들은 비록 CNN이나 Transformer 구조를 사용하여 훈련 시간을 단축할 수 있다고 해도 추론 시간은 단축하지 못했다. 왜냐하면 합성기의 입력 텍스트와 출력 프레임의 alignment를 추론 시간에 프레임 바이 프레임으로 auto-regressive하게 예측해야 했기 때문이다. 하지만 이 논문에서는 ‘Feed-for..
CHiVE: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network
Pitchtron: Towards audiobook generation from ordinary people’s voices Source code: https://github.com/hash2430/pitchtron/ Audio samples Prosody Reference GST Soft pitchtron Hard pitchtron Standard Korean neutral dialogue Standard Korean neutral dialogue Standard Korean emotive dialogue Standard Korean emotive dialogue Kyoungsang dialect Kyoungsang dialect Cheolla dialect Cheolla dialect Prosody transferability and vocal range scalability Scale Reference GST Soft p..
Expressive TTS and prosody transfer 중립적 발화(감정 표현이나 개성 표현이 없는 발화)에 대한 합성기의 자연성이 확보된 이후, 감정, 억양 등의 요소를 컨트롤해 좀더 몰입도 있는 합성음을 만들어 오디오북이나 모바일 어플리케이션, 유튜브 컨텐츠 제작 등에 활용하고자 하는 수요가 발생하였다. 본 보고서에서는 이 중 5가지 접근에 대해 비교 분석을 하고자 한다. 이 보고서와 여타 논문에서는 개성표현을 위한 특성으로 프로소디(prosody)와 스타일( style)이라는 단어를 혼용해서 사용한다. 연구에서 사용하는 프로소디 또는 스타일이라는 표현은 주관적 판단의 영역이니만큼 연구자마다 조금씩 편차가 있으므로 논의를 시작하기에 앞서, 프로소디 또는 스타일의 의미를 표명하겠다. 앞으로 이 보고서에서 사용될 프로소디 또는 스타일이라는 용어는 첫번째 소개..