본문 바로가기

전체 글

(28)
AdaSpeech: Adaptive text to speech for custom voice 보호되어 있는 글입니다.
Naver Deview2020 "누구나 만드는 내 목소리 합성기2 (커스텀 보이스 파이프 라인)" 보호되어 있는 글입니다.
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment 저자: Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon TTS inference를 parallel하게 돌리기 위해서는 Transformer, GAN, Flow 같은 non-sequential한 모델이 필요할 뿐만 아니라, duration predictor가 필요하다. inference할 때 duration predictor가 없으면 autoregressive하게 한땀 한땀 입력 텍스트와 이전 프레임을 보고 이에 걸맞는 새 프레임을 생성해야 한다. 하지만 duration predictor가 있다면 parallel하게, 이전 프레임에 대한 디펜던시 없이 inference를 할 수 있다. GlowTTS는 고전적인 DP로 해결하되..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search 저자: Jaehyeon Kim, Sungwon Kim, Jungil Kong and Sungroh Yoon 소속: 카카오 엔터프라이즈, 서울대 Data science & AI Lab 1) Vocoder에 사용된 바 있는 Glow를 TTS에 적용 Inference speed Tacotron2 대비 15.7배 개선. 의심의 여지 없고 토론의 여지도 없지. 누군가 언젠가는 했어야 하는 일. Prosody control 여지 $\mu_i$, $\sigma_i$ Sampling from prior $\mu_i$, $\sigma_i$ -> $z_j$ $f_{dec}$ $z_j$ + speaker id -> $x_j$ 수식적으로 더한다는게 아니라, decoder의 모든 block에 speaker embedding 정..
Blizzard challenge 2020 1. Dataset 1) Mandarin TTS - 9.5H training data, text transcription only 2) Shanghai dialect TTS - Low resource-> 3시간의 데이터 사용 - Text * phonetic transcriptions 2. 참가자들 - 첫번째 태스크 16팀, 두번째 태스크 8팀. - Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델. - 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기) -A: 자연음 -L: Tencent -D: Sogou -E: NUS-HLT -N: Royal flush -C: NLPR -O: OPPO -G: HI..
Predicting emotion from text for TTS Emotion label specified during synthesis No. Neutral Happy Sad Angry 1 2 3 4 Emotion is predicted from language model (no emotion supervision from human during synthesis stage) No. Neutral Happy Sad Angry 1 2 3 4 5
Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence Authors) Chi Sun, Luyao Huang, Xipeng Qiu Publication) NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference 1. Task 정의 Aspect-based sentioment analysis (ABSA): "그 식당은 분위기는 좋았지만 맛이 별로였다" 라는 댓글이 있으면 분위기 aspect에 대해서는 positive sentiment, 맛 aspect에 대해서는 negative sentiment로 분류하는 태스크이..
How multilingual is Multilingual BERT? Title: How multilingual is Multilingual BERT? Published: 4. Jun. 2019. Authors: Telmo Pires, Eva Schlinger, Dan Garrette @ Google Research 1. M-BERT 104개 언어의 wikipedia로 1개의 BERT 모델을 훈련했다. language label이나 translation을 장려하는 개입은 하지 않았다. 2. 두개의 down-stream task (Named entity recognition, Part of speech tagging)을 Language X로 학습시킨 후 Language Y에 대해 inference한 결과(zero-shot experiment)를 알아보았다. 여기서 언어들은 ..