본문 바로가기

NLP

How multilingual is Multilingual BERT?

Title: How multilingual is Multilingual BERT?

Published: 4. Jun. 2019.

Authors: Telmo Pires, Eva Schlinger, Dan Garrette @ Google Research

 

1. M-BERT

104개 언어의 wikipedia로 1개의 BERT 모델을 훈련했다.

language label이나 translation을 장려하는 개입은 하지 않았다.

 

2. 두개의 down-stream task (Named entity recognition, Part of speech tagging)을 Language X로 학습시킨 후 Language Y에 대해 inference한 결과(zero-shot experiment)를 알아보았다. 여기서 언어들은 NER, POS에서 조금씩 차이가 있지만, 공통적으로  모두, 4개의 유럽 언어를 사용했다.

NER: English, Dutch, Spanish, German

POS: English, Dutch, Spanish, Italian

한국어도 이게 되면 좋을텐데.

한국어랑 이렇게까지 비슷한 언어는.. 일본어 정도?

어순의 차이를 뛰어넘어서까지 cross-lingual한 학습이 되지는 않는다고 하니까...ㅠ

이 논문은 당장 나에게는 쓸모없겠다..