언어 전공자의 NLP 로그
Korean-English Machine Translation with Multiple Tokenization Strategy 본문
논문 읽기
Korean-English Machine Translation with Multiple Tokenization Strategy
JohnnyNLP 2024. 2. 23. 14:39논문 출처 : https://arxiv.org/abs/2105.14274
0. Abstract
- 철자 단위, 형태소 단위, BPE 분절 방식 중 한영 번역에 가장 효과적인 방법을 트랜스포머 기반 9개 모델을 50,000 에포크 학습하여 찾아낸다.
- 한국어는 BPE, 영어는 형태소 분절한 결과가 BLEU 35.73으로 가장 좋은 성과를 보였다.
1. Introduction
- 철자의 종류, 표기법 등이 언어에 따라 다르므로 분절화 방식을 언어에 맞게 설정하는 것이 중요하다.
- 한국어는 영어와 달리 자모가 결합된 음절 단위 표기를 따른다.
- 본 논문에서는 철자 단위, 형태소 단위, BPE 분절 방식을 적용해 서로 비교한다.
2. Related Work
- [1]에 따르면 한국어는 단어, 음절, 음소 단위 분절, 영어는 BPE와 철자 단위로 분절하였을 때, 한국어는 단어, 영어는 BPE가 성능이 가장 좋았다. (영한/한영 모두)
- [2]에 따르면 어텐션 적용 LSTM 모델에서 BPE와 WPM을 적용했을 때, 영/한 모두에서 BPE가 우세했다. (영한 번역)
- [3]에 따르면, 음소, 어절, 형태소, 서브워드, 형태소 인지 서브워드 분절을 적용했을 떄, 형태소 인지 서브워드 분절 방식이 성능이 가장 좋았다. (한영/영한 모두)
3. Suggested Model
- 한영 번역을 기준으로 한다.
- 철자 분절은 hgtk (한글), 형태소는 koNLPy의 Okt (한글)와 SpaCy(영어), BPE는 openNMT-py의 빌트인 모델에 높은 동시 빈도 철자 집합을 학습하여 분절한다.
4. Experiment
- AI HUb의 80만 문장을 98:1:1로 분리, 학습/검증/평가 데이터로 활용한다.
- 하이퍼 파라미터는 OpenNMT-py의 설정 그대로 적용한다.
- 결과를 보면 한국어 BPE+영어 형태소/BPE를 제외한 나머지 7개 모델에선 BLEU 스코어가 0점대로 유의미한 결과가 도출되지 않았다. 한국어 BPE+영어 형태소 조합이 스코어가 가장 높았다.