본문 바로가기

카테고리 없음

TTS 연구 동향 및 기술 수준

  • Tacotron2WaveNet 이후로는 음질 향상보다는 훈련 속도 향상과 추론(=합성) 속도 향상 및 개성 표현 관련 연구가 다수 진행되고 있음. Tacotron2WaveNet의 경우 함께 썼을 때의 자연성 MOS4.5이며 이는 자연음과 동일한 수준임.
    • 훈련 속도 향상을 위한 연구: Transformer, Deep Voice 3
    • 추론 속도 향상을 위한 연구: WaveGlow, FastSpeech, MelGAN
    • 개성 표현을 위한 연구: Deep Voice 2, Deep Voice 3, global style token

 

 

End-to-end 합성기라 함은 mel-spectrogram을 합성한 후, neural vocoder를 사용해 mel-spectrogram으로부터 waveform을 생성하는 구조를 사용하는 것을 말한다. Natural language processing 분야에서 sequence to sequence generation을 위해 제안된 Encoder-decoder 기반 구조를 사용하는 것이 현재 end-to-end 합성기 연구의 큰 틀이다. 구글에서 발표한 Tacotron, Tacotron2WaveNet이 합성음의 자연성을 자연음과 유사한 수준으로 끌어올려놓았기 때문에 그 이후의 연구들은 주로 훈련 시간의 단축, 추론, 즉 합성음 생성 시간의 단축과 개성 표현에 주력하고 있다.

합성기의 경우 Tacotron2, Transformer가 최신 연구 성능의 벤치마크로 사용되고 있다. Tacotron2Transformer의 자연성 MOS4.5, 4.4로 각각의 논문에 보고하고 있으며 이는 자연음(MOS 4.5)과 매우 유사한 수준이다. Tacotron2Transformer의 구조에서 갖는 가장 큰 차이점은, temporal sequence modeling을 위해 RNN을 사용하던 Tacotron2와는 달리, Transformer에서는 RNN 구조가 제거되고 self-attention이 이를 대체함으로써, 병렬 훈련이 가능해져 훈련 속도가 향상되었다는 점이다. 이로 인해 Tacotron2의 훈련에 4.5일이 소요되는 반면 Transformer3일이 소요된다고 보고된 바 있다. 또한, 합성기와 보코더의 추론(inference) 단계를 가속화하기 위한 연구도 활발히 이루어지고 있다. 현재까지 합성기와 보코더는 추론 시 auto-regressive하게 이전 time step의 출력을 다음 time step의 입력으로 사용하는 특성이 있으며, 이로 인해 추론 속도가 매우 느리다. 이를 해결하고자, 미리 학습된 제3TTS로부터 transfer learning을 사용해 auto-regressive 예측 대신 feed-forward 예측을 하는 것이FastSpeech이다. 한편, 같은 문제를 해결하기 위해 auto-regressive 예측을 Flow 기반 생성 방식을 사용해 대체하고자 하는 것이 WaveGlow 보코더이다. FastSpeechWaveGlow 보코더와 함께 사용했을 때 1초의 합성음 생성에 0.18초가 소요돼, 6.89가 소요되는 Transformer TTS + WaveGlow보다 웨이브폼 생성이 38.3 배 빠른 것으로 보고되었다. WaveGlow는 자연성 MOS3.96으로써, 기존의 벤치마크였던 WaveNet의 자연성 MOS3.88과 유사한 수준이다. 또한 Tesla V100 GPU 기준으로 WaveNet1초에 78 샘플을 생성하는 반면 WaveGlow223,000 샘플을 생성함으로써 WaveNet보다 2859 배 빠른 것으로 알려졌다.

합성음의 개성 표현을 위해서는 Tacotron2speaker embedding을 도입한 DeepVoice2, Deep voice 3 기반의 연구와, 훈련 발화의 운율로부터 임베딩을 추출한 후 이를 제한된 개수의 style tokenweighted sum으로 표현하는 방법을 학습함으로써, 추론 시 주어지는 타겟 운율을 모사하거나, 기 훈련된 style token을 사용해 합성음의 운율을 조절하는 global style token 방식의 연구가 주목받고 있다.