언어 전공자의 NLP 로그
Causes and Cures for Interference in Multilingual Translation 본문
논문 출처 : https://arxiv.org/abs/2212.07530
Causes and Cures for Interference in Multilingual Translation
Multilingual machine translation models can benefit from synergy between different language pairs, but also suffer from interference. While there is a growing number of sophisticated methods that aim to eliminate interference, our understanding of interfer
arxiv.org
0. Abstract
- 여러 언어 번역쌍을 학습한 LLM은 synergy와 interference를 동시에 겪는다.
- 간섭은 최소화하고, 시너지는 극대화하는 여러 연구들이 이뤄져 왔다.
- 이러한 현상은 모델 사이즈, 데이터 사이즈, 전체 데이터 셋 내 각 언어쌍이 차지하는 비율에 큰 영향을 받는다.
- 모델이 데이터 셋에 비해 너무 작을 경우 간섭이 크게 늘어나는 반면, 10억 파라미터 이하 표준 트랜스포머 구조를 사용했을 때 시너지 측면에서 큰 향상을 기대할 수 있다.
- 또한 샘플링 온도를 조정하는 것이 저자원, 고자원 언어 간 균형 유지에 결정적임을 확인했다.
1. Introduction
- 모델의 크기를 늘리고, 샘플링 온도를 조정했을 때 간섭은 줄고, 시너지는 올라간다.
- 모델 크기와 학습 문장 외에 주된 요인으로 포커스 쌍 문장 예시가 전체 예시 (모든 bilingual 문장 쌍)에서 차지하는 비율이 중요하며, 의외로 언어 유사성이나 번역 방향은 영향을 크게 주지 않았다.
- 750만 문장 중 150만 문장 (20%)을 포커스로 잡았을 때, 11M, 44M보다 176M 파라미터 모델에서 간섭이 더 적게 나타나며, 704M에서 시너지가 가장 높게 나타났다.
- 모델이 충분히 크다면 비-포커스 데이터의 양을 늘렸을 때 시너지가 증가한다.
- 기존 선행 실험의 결과에서 나타났던 간섭 현상은 샘플링 온도가 최적화되지 않았기 때문일 수 있다.
2. Measuring Interference
- 샘플링 온도 T는 0<T<1에서 저자원 언어를 말려 죽이고 (starve), T>1일 때 그 분포를 증가시켜준다.
- 간섭이란, 서로 다른 번역쌍 사이에서 발생하는 부정적인 상호 작용으로, 이는 s->t 언어로만 학습한 2개 모델 (bilingual)의 크로스 엔트로피와 다국어 모델 크로스 엔트로피의 상대적인 차이이다. 즉, 음수일 경우 간섭을, 양수일 경우 시너지를 의미한다. (양수라면 해당 언어쌍만 고려했을 때보다 오차가 감소하므로)
3. Experimental Setup
- Model : 11M, 44M, 176M, 704M 표준 트랜스포머 모델을 각 XS, S, M, L로 설정
- Data : WMT 데이터 기반 다국어 벤치마크 -> 영어와 매칭된 15개 언어 집합으로, 그 분포는 155K에서 51M까지 다양하다.
- Tokenization : sentencepiece 방식 64K BPE로, 저자원어는 샘플링 온도를 5로 설정 (선행 연구와 동일)
- Training : Fairseq + Adam. 최대 100k step, dropout은 0.1
4. What Impacts Interference in Multilingual Translation?
- 모델 사이즈
- $Ds−>t$, 즉 언어 쌍의 수
- 훈련 중 관측한 s->t의 비율
- 전체 언어 수
- s->t와 다른 언어 쌍 집합 간의 유사성
- 언어 유사성이 영향을 주는가? -> 미미하다.
- 언어의 수가 영향을 주는가? -> 미미하다.
- 모델 및 데이터 사이즈의 영향
- Spanish 15.2M 쌍과 간섭어 비율을 1/8에서 x8로 점진적으로 늘렸을 때, 각각의 간섭률을 모델 사이즈에 따라 비교한 결과, 모델이 클수록, 간섭어의 비중이 높을수록 시너지가 증가한다.
- 간섭어의 샘플링 온도 조정
- 2019년 Arivazhagan et al.에서 T=5를 사용했는데, 1이나 2를 사용했을 때 고자원 언어로부터의 간섭을 낮출 수 있었다.
5. Related Work
- Scaling Law : 기존의 bi-lingual에서 multi-lingual로 확장한 연구.
- WMT에서의 multi-task 방법론 : 어떠한 언어에 치중할 것인가에 대한 물음으로, adaptive scheduling, gradient similarities, multi-armed bandit 등 방법 시도
6. Conclusions
- 176M 표준 트랜스포머에서 MMT 시너지를 높이는 방법을 모색하였다.
- 샘플링 온도 설정의 중요성을 조명하였다.