Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

언어 전공자의 NLP 로그

Korean-English Machine Translation with Multiple Tokenization Strategy 본문

논문 읽기

Korean-English Machine Translation with Multiple Tokenization Strategy

JohnnyNLP 2024. 2. 23. 14:39

논문 출처 : https://arxiv.org/abs/2105.14274

 

0. Abstract

  • 철자 단위, 형태소 단위, BPE 분절 방식 중 한영 번역에 가장 효과적인 방법을 트랜스포머 기반 9개 모델을 50,000 에포크 학습하여 찾아낸다.
  • 한국어는 BPE, 영어는 형태소 분절한 결과가 BLEU 35.73으로 가장 좋은 성과를 보였다.

1. Introduction

  • 철자의 종류, 표기법 등이 언어에 따라 다르므로 분절화 방식을 언어에 맞게 설정하는 것이 중요하다.
  • 한국어는 영어와 달리 자모가 결합된 음절 단위 표기를 따른다.
  • 본 논문에서는 철자 단위, 형태소 단위, BPE 분절 방식을 적용해 서로 비교한다.

2. Related Work

  • [1]에 따르면 한국어는 단어, 음절, 음소 단위 분절, 영어는 BPE와 철자 단위로 분절하였을 때, 한국어는 단어, 영어는 BPE가 성능이 가장 좋았다. (영한/한영 모두)
  • [2]에 따르면 어텐션 적용 LSTM 모델에서 BPE와 WPM을 적용했을 때, 영/한 모두에서 BPE가 우세했다. (영한 번역)
  • [3]에 따르면, 음소, 어절, 형태소, 서브워드, 형태소 인지 서브워드 분절을 적용했을 떄, 형태소 인지 서브워드 분절 방식이 성능이 가장 좋았다. (한영/영한 모두)

3. Suggested Model

  • 한영 번역을 기준으로 한다.
  • 철자 분절은 hgtk (한글), 형태소는 koNLPy의 Okt (한글)와 SpaCy(영어), BPE는 openNMT-py의 빌트인 모델에 높은 동시 빈도 철자 집합을 학습하여 분절한다.

4. Experiment

  • AI HUb의 80만 문장을 98:1:1로 분리, 학습/검증/평가 데이터로 활용한다.
  • 하이퍼 파라미터는 OpenNMT-py의 설정 그대로 적용한다.
  • 결과를 보면 한국어 BPE+영어 형태소/BPE를 제외한 나머지 7개 모델에선 BLEU 스코어가 0점대로 유의미한 결과가 도출되지 않았다. 한국어 BPE+영어 형태소 조합이 스코어가 가장 높았다.