본문 바로가기

전체 글

(26)
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment 저자: Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon TTS inference를 parallel하게 돌리기 위해서는 Transformer, GAN, Flow 같은 non-sequential한 모델이 필요할 뿐만 아니라, duration predictor가 필요하다. inference할 때 duration predictor가 없으면 autoregressive하게 한땀 한땀 입력 텍스트와 이전 프레임을 보고 이에 걸맞는 새 프레임을 생성해야 한다. 하지만 duration predictor가 있다면 parallel하게, 이전 프레임에 대한 디펜던시 없이 inference를 할 수 있다. GlowTTS는 고전적인 DP로 해결하되..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search 저자: Jaehyeon Kim, Sungwon Kim, Jungil Kong and Sungroh Yoon 소속: 카카오 엔터프라이즈, 서울대 Data science & AI Lab 1) Vocoder에 사용된 바 있는 Glow를 TTS에 적용 Inference speed Tacotron2 대비 15.7배 개선. 의심의 여지 없고 토론의 여지도 없지. 누군가 언젠가는 했어야 하는 일. Prosody control 여지 $\mu_i$, $\sigma_i$ Sampling from prior $\mu_i$, $\sigma_i$ -> $z_j$ $f_{dec}$ $z_j$ + speaker id -> $x_j$ 수식적으로 더한다는게 아니라, decoder의 모든 block에 speaker embedding 정..
Blizzard challenge 2020 1. Dataset 1) Mandarin TTS - 9.5H training data, text transcription only 2) Shanghai dialect TTS - Low resource-> 3시간의 데이터 사용 - Text * phonetic transcriptions 2. 참가자들 - 첫번째 태스크 16팀, 두번째 태스크 8팀. - Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델. - 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기) -A: 자연음 -L: Tencent -D: Sogou -E: NUS-HLT -N: Royal flush -C: NLPR -O: OPPO -G: HI..
Predicting emotion from text for TTS Emotion label specified during synthesis No. Neutral Happy Sad Angry 1 2 3 4 Emotion is predicted from language model (no emotion supervision from human during synthesis stage) No. Neutral Happy Sad Angry 1 2 3 4 5
Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence Authors) Chi Sun, Luyao Huang, Xipeng Qiu Publication) NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference 1. Task 정의 Aspect-based sentioment analysis (ABSA): "그 식당은 분위기는 좋았지만 맛이 별로였다" 라는 댓글이 있으면 분위기 aspect에 대해서는 positive sentiment, 맛 aspect에 대해서는 negative sentiment로 분류하는 태스크이..
How multilingual is Multilingual BERT? Title: How multilingual is Multilingual BERT? Published: 4. Jun. 2019. Authors: Telmo Pires, Eva Schlinger, Dan Garrette @ Google Research 1. M-BERT 104개 언어의 wikipedia로 1개의 BERT 모델을 훈련했다. language label이나 translation을 장려하는 개입은 하지 않았다. 2. 두개의 down-stream task (Named entity recognition, Part of speech tagging)을 Language X로 학습시킨 후 Language Y에 대해 inference한 결과(zero-shot experiment)를 알아보았다. 여기서 언어들은 ..
Pytorch GPU device 쓸 때 디버깅 오류 https://stackoverflow.com/questions/51009687/pytorch-unable-to-get-repr-for-class-torch-tensor Pytorch, Unable to get repr for I'm implementing some RL in PyTorch and had to write my own mse_loss function (which I found on Stackoverflow ;) ). The loss function is: def mse_loss(input_, target_): return torch.sum( ... stackoverflow.com ㅋㅋㅋ 무슨 일이 있었냐면, BERT pretrain 코드를 짜는데 line 195에 오류가 있는데 그냥 에러 ..
ELMo, GPT1, GPT2, BERT, RoBERTa, ALBERT의 발전 흐름과 비교 처음에 피치못할 사정으로 영어로 써버려서 영어로 일단 올립니다. 저도 한국어가 더 좋은데 말이죠ㅜ 시간이 나면 한국어로도 올릴게요.이번에 GPT3도 나왔는데 제가 본문에 지적한대로 zero-shot은 overreaching이라는걸 그들도 깨달았는지 Few-shot으로 컨셉을 바꿨더라고요? 그거 리뷰할 땐 한글로 하게 될 거 같아요. 출처는 저에요. 주관이 난무하는 글입니다. 저는 카이스트 박사과정 정성희입니다. 바쁘면 맨끝에 Discussion만 보는 것도 좋겠네요. Byte pair encoding, BERT, Word2Vec을 제 깃에 스크래치부터 구현해뒀으니 논문보다 더 자세한 이해가 필요하시면 한번 들러보셔도 좋을거에요. https://github.com/hash2430 hash2430 - Ove..