언어 전공자의 NLP 로그
When Does Translation Require Context? A Data-driven, Multilingual Exploration 본문
논문 읽기
When Does Translation Require Context? A Data-driven, Multilingual Exploration
JohnnyNLP 2024. 2. 23. 14:38논문 출처 : https://arxiv.org/abs/2109.07446
When Does Translation Require Context? A Data-driven, Multilingual Exploration
Although proper handling of discourse significantly contributes to the quality of machine translation (MT), these improvements are not adequately measured in common translation quality metrics. Recent works in context-aware MT attempt to target a small set
arxiv.org
0. abstract
- 기계 번역의 성능에 담화 처리는 중요한 부분이나, 주요 품질 메트릭에서 이를 측정하는 방식은 제기된 적이 없었다.
- 본 논문에서 다국어 담화 인지 (MuDA) 벤치마크로 데이터 셋에서 발생하는 담화 현상을 식별하고, 이에 관한 모델 성능을 평가하는 방식을 제안한다.
- 문맥을 인지하는 모델은 번역 성능이 뛰어날 뿐만 아니라, 중의성 해결에도 뛰어나다.
1. Introduction
- 지시 대명사, 어휘적 응집성, 담화 표지 등은 번역 성능과 이해에 큰 영향을 미치지만, 전체에서 차지하는 해당 단어들의 비중은 적기 때문에, BLEU와 같은 성능 지표로는 이를 측정하기 어렵다.
- 대체 표현, 격식체, 대명사 번역의 평가를 시도한 연구는 있었지만, 이를 다양한 언어로 확장한 시도는 제한적 (본 논문은 14개 언어로 확장)이다. 이는 해당 담화 현상을 식별하는 데 언어학적 도메인 지식과 공학적 어려움이 공존하기 때문이다.
- 본 논문에서 제시하는 담화 현상 식별 방식은 데이터 주도적이고, 반자동적인 방식이다. 이를 위해 P-CXMI 지표를 개발하고, 이를 체계적으로 분석하여 맥락이 유용하게 쓰이는 번역의 범주를 찾아낸다. 이를 통해 언어적 선험 지식이 필요하지 않으며, 각 중의성 범주가 해당하는 태그를 자동으로 부여하고, 각 카테고리 별 번역 모델을 평가하는 방식을 제안한다.
- 또한 해당 평가 지표를 통해 구글 번역보다 DeepL이 담화 현상에 더 잘 대응함을 발견하였다.
2. Measuring Context Usage
- 조건부 상호 교차 정보 (CXMI)는 코퍼스 단위에서 모델 예측에 미친 맥락의 영향력을 측정한다. 이는 맥락에 무지한 번역 모델과 맥락 인지 번역 모델 간의 엔트로피 차이로 측정된다. 이를 음의 로그 합 평균으로 계산한 값이 N 문장에 대한 CXMI 근사치가 된다. 이때 비교 대상은 단일 모델로, 차이는 오직 맥락이 주어졌는지 여부에 의해서만 결정된다. 단, 이는 코퍼스 단위의 모든 문장에 대해 계산된다는 한계를 지니며ㅓ, 본 연구자들은 이를 연장하여 저단위 맥락 의존성을 표착하기 위한 산식을 제안한다.
- 점단위 상호 정보 (P-MI)는 특정 결과값에 대한 두 임의변수간의 연관성을 측정한다. 상호 정보는 변수로부터 도출 가능한 모든 결과 가능성에 대한 예측값으로 측정된다. 이를 CXMI와 결합하면 점단위 상호 교차 정보 (P-CXMI)가 다음과 같이 정의된다.
- $P−CXMI(y,x,c)=−logqMTA(y|x)qMTc(y|x,c)$
- 이는 맥락 정보 c가 주어졌을 때가 그렇지 않았을 때보다 얼마나 더 도착어문장 y의 가능성을 높이는지에 대한 정보이다.
- 위 공식을 단어 단위로 적용하면 신경망 디코더의 자동 회귀적 특성을 이용하여 문장 내 특정 단어에 대한 확률 변화를 측정할 수 있게 된다.
$P−CXMI(i,y,x,c)=−logqMTA(yi|yt<i,x)qMTc(yi|yt<i,x,c)$
- 이때 맥락 c와 x의 형태에 대한 제약이 없기 때문에 조건부 기반 모델링이라면 어디든 위 식을 적용할 수 있다.
- 위 지표를 통해 주변 단어와의 문맥에 따라 그 확률이 크게 증가하는 맥락 의존적 단어를 찾아낼 수 있고, 이러한 단어들은 높은 확률로 담화 현상에 부합한다.
3. When Translation Phenomena Benefit from Context?
- 맥락이 극명히 드러나는 담화 현상을 찾기 위해 연구자들은 POS 태그별, 코퍼스별, 문장별 P-CXMI 지표가 높은 단어들을 직접 검토했다. 그 결과 어휘적 응집성, 격식체 (이인칭 구별, 경어 표현), 대명사 형태, 동사 형태, 대체 표현의 5개 범주를 도출한다.
4. Cross-Phenomenon MT Evaluation
- 번역 중의성이 발생하는 위 클래스에 해당하는 태그를 자동으로 부여하는 방법을 개발하고, 이를 MuDA 벤치마크의 형태로 제안한다.
- 14개 언어별 MuDA 태그로 각 담화 현상을 구분하고, compare-mt 툴킷으로 각 태그별 f-measure 평균값을 계산한다. 이를 통해 모델이 어떤 담화 현상을 더 정확하게, 혹은 부정확하게 번역하는지 식별할 수 있다.
- 이후 각 클래스별 자동화 태그 방식에 대해 설명한다. (한국어의 경우 경어체 표현, 대체 표현이 높게 나타나는데, 전체 현상 카운트 수는 14개 언어 중 가장 낮게 나타났다. 이는 한국어 언어 특성 상 대명사 표현의 사용 빈도가 낮고, 생략이 빈번하게 발생하기 때문으로 보이는데, 생략을 고려하지 않은 점이 다소 아쉽다.)
- 연구자들은 이후 8개 언어의 50개 임의 발화에 대한 MuDA 태그 결과를 전산언어학적 배경 지식이 있는 원어민에게 직접 검수하여 정확도를 판단하게 했다. (한국어는 대명사, 동사 형태가 누락되었고, 대체 표현은 정확도가 0.26으로 매우 낮게 측정되었다.) 대체 표현의 경우, 일 대 다 혹은 비선형적 번역 결과가 많아 false-positive의 비율이 높게 발생함을 낮은 정확도의 원인으로 지목했다.
- 연구자들은 또한 영어와 도착어간 정렬 도구만 있다면 새로운 언어도 MuDA를 적용할 수 있다고 주장한다. (정렬 도구란, 4-2에서 언급한 자동화 태그 방법 및 기준을 의미하는 듯하다)
5. Exploring Context-aware MT
- 모델은 맥락 정보가 없는 (no-context) 모델, 맥락 예측 모델 (context), 혹은 맥락 참조 모델 (context-gold) 3가지로 구성된다. 평가 지표는 BLEU, COMET, Word f-measure이다. 대체 표현과 격식 표현에서 맥락을 아는지의 유무가 성능에 가장 많은 영향을 주었다.
- 대규모의 사전 학습 모델의 경우, 맥락 인지 모델의 성능이 대체로 뛰어났다.
6. Related Work - Pass
7. Conclusions and Future Work
- 본 연구는 체계적이고 포괄적으로 언어 선행 지식 없이 여러 언어에 적용이 가능한 맥락 평가 지표를 고안해냈다. P-CXMI 지표는 생성 중 맥락 의존도가 높은 단어를 식별할 수 있고, MuDA 벤치마크는 병렬 코퍼스의 단어를 자동으로 태그하고, 5개 담화 현상에 대해 모델을 평갛나다.
- 특정 현상 태그 시 규칙 기반 방식을 적용해야 한다는 점 (오류 발생의 위험성), F-1 점수를 사용하여 정답 번역이 아닌, 동의의 다른 번역을 penalizing 한다는 점, 최신 번역 모델에 벤치마크를 적용하기 어려울 수 있다는 점은 한계로 꼽힌다.