Notice
Recent Posts
Recent Comments
Link
«   2025/10   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

언어 전공자의 NLP 로그

Cross-lingual Language Model Pretraining 본문

논문 읽기

Cross-lingual Language Model Pretraining

JohnnyNLP 2024. 2. 23. 14:24

논문 출처 : https://arxiv.org/abs/1901.07291

 

Cross-lingual Language Model Pretraining

Recent studies have demonstrated the efficiency of generative pretraining for English natural language understanding. In this work, we extend this approach to multiple languages and show the effectiveness of cross-lingual pretraining. We propose two method

arxiv.org

 

0. Abstract

  • 본 논문에서는 교차 언어 모델 (XLM)의 학습 방법으로 단일어 데이터에 의존하는 비지도 학습 방식과 병렬 데이터를 활용하는 지도 학습 방식 2가지를 제시한다.
  • 이를 통해 교차어 분류, 지도/비지도 번역 과제를 수행하고, SOTA 성적을 얻었다.

1. Introduction

  • 문장 인코더를 사전 학습하는 방법으로 다양한 NLU 벤치마크 과제에서 상당한 지표 상승이 이루어졌다.
  • 트랜스포머 기반 언어 모델은 말뭉치로 비지도 학습하고, 이를 NLU 및 NLI 과제에 파인 튜닝한다.
  • 다목적 문장 표상에 관한 학계의 다양한 관심이 있었지만, 대부분은 단일어 접근 방식에, 그 중에서도 영어 데이터에 치중되어 있었다.
  • 본 논문에서는 어떠한 문장이든 같은 임베딩 공간에 인코딩할 수 있는 범용 교차어 인코더 설계 방법을 제안한다.
  • 본 논문의 기여점은 다음과 같다.
    • 교차 언어 모델링으로 교차 언어 표상을 학습하는 비지도 방법론을 소개하고, 2개의 단일어 사전 학습 목표를 검토한다.
    • 병렬 코퍼스가 있을 때 교차어 사전 학습을 향상시킬 지도 학습 목표를 소개한다.
    • 기존의 교차어 분류, 비지도 번역 및 지도 번역에서 SOTA 성적을 거두었다.
    • 저자원 언어의 perplexity에 있어 상당한 향상을 보인 교차어 모델을 제시한다.
    • 코드와 사전 학습 모델을 공개한다.

2. Related Work

  • Mikolov의 논문에서, 다른 언어의 단어 표상을 정렬하기 위해 작은 사전을 활용하는 방식이 제기되었다.
  • 그 외에도 단일어 표상의 질을 높여 교차어 표상을 향상시킨다거나, 수직 변형 (orthogonal transformation)을 통해 단어의 분포를 정렬하는 등 다양한 기법의 조합들이 임의의 언어에 적용이 가능하다는 연구 결과가 있었다.
  • 즉, 학계 추세는 점차 병렬 말뭉치의 필요성이 줄어드는 쪽으로 가고 있다.
  • Johnson et al. (2017)에서는 하나의 공유 LSTM 인코더와 디코더로 다양한 언어 쌍에 대해 기존의 결과를 뛰어 넘는 번역 지표를 보여주었다.
  • Artetxe and Schwenk (2018)는 교차어 문장 임베딩을 생성하는 인코더를 제안했다.
  • 또한 비지도 기계 번역 분야의 최근의 연구 결과에 따르면, 문장 표상 정렬이 완전히 비지도 방식으로 이루어질 수 있다.

3. Cross-lingual language models

  • 본 논문에서 제안하는 모델 목표는 총 3개로, 둘은 단일어를 활용하는 비지도 방식이고, 하나는 병렬 문장이 필요한 지도 방식이다.
  • BPE 방식으로 모든 언어에 대한 공유 사전을 만든다. 이를 통해 같은 표기법이나 숫자, 대명사같은 anchor token을 공유하는 언어들 사이의 임베딩 정렬이 자연스럽게 개선된다.
  • 문장 샘플링은 다항분포에 따라 추출되며, 이는 저자원 언어에서 기원한 토큰 수를 늘리면서 고자원 언어의 편향을 줄이기 위한 방법이다.
    • CLM은 문장의 이전 단어들에 대한 다음 단어의 조건부 확률을 구한다.
    • MLM은 transformer 논문에서 제시한 바와 같이, 전체 BPE 토큰의 15%를 임의 샘플하여, 그중 80%는 마스크 토큰으로, 10%는 임의 토큰으로, 10%는 기존과 동일하게 변형한다. 단, 차이가 있다면 NSP를 위해 2문장씩 입력 받았던 transformer와 달리, 여기서는 256 토큰 길이의 text stream을 활용한다.
    • 앞선 CLM과 MLM은 비지도 학습 방식으로, 단일어 데이터만 필요로 한다. 단, 병렬 데이터를 활용할 수 있는 경우에는 반대로 위 방식을 활용하지 못한다. 이때는 병렬 문장을 concat한 text stream을 인풋으로 활용한다. 영어 단어의 mask를 유추하기 위해, 모델은 영어 문장과 불어 문장을 동시에 참조해야 한다. 이때 영어와 불어 표상의 정렬이 이루어진다. 추가로 불어 문장의 위치 인코딩은 0으로 초기화된다.
    • 본 연구에 활용된 교차 언어 모델은 CLM, LML 혹은 MLM+TLM으로 사전 학습 된다.

4. Cross-lingual language model pretraiing

  • 본 연구에서 교차 언어 모델의 사전 학습을 통해 얻고자 하는 것은 다음과 같다.
    • 제로샷 교차어 분류 문제에 쓰일 문장 인코더의 초기화 개선
    • 지도/비지도 NMT 시스템의 초기화 개선
    • 저자원 언어 언어 모델
    • 비지도 교차 언어 임베딩
  • 교차 언어 분류 모델 : 벤치마크로 XLM을 파인 튜닝하고, XNLI 데이터셋으로 이를 평가한다. 구체적으로, 사전 학습된 트랜스포머의 첫 은닉층 위에 선형 분류기를 추가하고, 모든 파라미터를 영어 NLI 훈련 데이터로 파인 튜닝한다. 이후 NLI 예측을 15개의 XNLI 언어에 대해 수행한다.
  • 비지도 학습 번역기 : 사전 학습 결과, 룩업 테이블을 초기화하는 데 사용되는 사전 학습된 교차 언어 임베딩의 질이 모델 성능에 상당한 영향을 미친다는 점이 드러났다. 여기에 착안하여 교차 언어 모델의 인코더와 디코더를 모두 사전 학습하는 방식을 제안한다.
  • 지도 학습 번역기 : CLM과 MLM을 적용했을 때의 성능 지표를 함께 비교한다.
  • 저자원 언어 모델 : BPE 사전집에서 80% 이상의 토큰을 공유하는 네팔어와 힌두어를 비교 대상으로 삼았고, 이를 각각 네팔 / 네팔+영어 / 네팔+힌디 / 네팔+힌디+영어의 조합으로 임베딩했을 때 각각의 perplexity를 비교한다.
  • 비지도 교차 언어 임베딩 : 철자를 공유하는 언어들 간의 사전 공유가 XLM 특유의 임베딩 공간을 형성하며, 이를 기존의 다른 워드 임베딩 정렬 기법 (MUSE / Concat)과 비교하여 cosine 유사도, L2 거리 및 교차어 단어 유사도를 측정한다.

5. Experiments and results

  • *하이퍼 파라미터와 실험 환경 셋팅은 패스*
  • 교차 언어 분류 모델 : MLM 목표로 단일 말뭉치에 학습을 진행한 비지도 모델과, MLM+TLM 목표로 추가 병렬 코퍼스를 활용한 지도 모델을 평가했다. 결과는 MLM 자체 비지도 학습만으로도 SOTA를 얻어낼 수 있었고, 추가로 TLM을 학습하면 여기서 또 소폭의 성능 향상이 이루어짐을 확인했다.
  • 비지도 학습 번역기 : 영어-불어, 영어-독일어, 영어-루마니어어 3개 쌍으로 평가하며, 이때 인코더/디코더의 룩업 테이블의 초기화 방식에 따라 CLM 사전 학습, MLM 사전 학습, 임의 초기화 등의 조합으로 총 9개의 세팅을 생성하여 비교한다. 결과는 MLM+MLM이 가장 뛰어난 성능을 보였다. 다만, 인코더/디코더 중 성능에는 인코더의 세팅이 더 큰 영향을 주었다.
  • 지도 학습 번역기 : 마찬가지로 MLM을 적용했을 때 성능이 가장 뛰어났는데, back-translation 과정을 거친 실험 결과에서 가장 높은 지표를 얻었다.
  • 저자원 언어 모델 : 3개 언어를 모두 활용했을 때의 perplexity 지표가 가장 좋게 나왔다. 이는 언어끼리 공유하는 n-gram anchor point로부터 모델이 추가적인 맥락을 전이해서 가져올 수 있었기 때문이라 추측된다.
  • 비지도 교차 언어 임베딩 : MUSE, Concat, XLM을 각각 비교했을 때, 모든 지표에서 XLM이 더 높게 나타난다. 단, XLM의 경우, encoder가 embedding과 함께 학습되어 유사도가 높게 나타날 수도 있음을 고려해야 한다.

6. Conclusion

  • 논문에서 인상적인 부분은 MLM이 거의 모든 분야에서 굉장히 효율적으로 드러났다는 점이다.
  • 또한 교차 언어 임베딩을 만듦으로써, 서로 연관도가 높은 언어에 대해서 일정 부분 성능 향상이 일어났다는 점이 흥미로운 점이다.
  • 이에 따라, 저자원 언어에 대해서도 영어, 중국어 등 큰 코퍼스를 활용하면 여러 reference point, anchor point로부터 반사적인 이익을 볼 수 있겠다.