Korean-English Machine Translation with Multiple Tokenization Strategy

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

언어 전공자의 NLP 로그

Korean-English Machine Translation with Multiple Tokenization Strategy 본문

논문 읽기

Korean-English Machine Translation with Multiple Tokenization Strategy

JohnnyNLP 2024. 2. 23. 14:39

논문 출처 : https://arxiv.org/abs/2105.14274

0. Abstract

철자 단위, 형태소 단위, BPE 분절 방식 중 한영 번역에 가장 효과적인 방법을 트랜스포머 기반 9개 모델을 50,000 에포크 학습하여 찾아낸다.
한국어는 BPE, 영어는 형태소 분절한 결과가 BLEU 35.73으로 가장 좋은 성과를 보였다.

1. Introduction

철자의 종류, 표기법 등이 언어에 따라 다르므로 분절화 방식을 언어에 맞게 설정하는 것이 중요하다.
한국어는 영어와 달리 자모가 결합된 음절 단위 표기를 따른다.
본 논문에서는 철자 단위, 형태소 단위, BPE 분절 방식을 적용해 서로 비교한다.

2. Related Work

[1]에 따르면 한국어는 단어, 음절, 음소 단위 분절, 영어는 BPE와 철자 단위로 분절하였을 때, 한국어는 단어, 영어는 BPE가 성능이 가장 좋았다. (영한/한영 모두)
[2]에 따르면 어텐션 적용 LSTM 모델에서 BPE와 WPM을 적용했을 때, 영/한 모두에서 BPE가 우세했다. (영한 번역)
[3]에 따르면, 음소, 어절, 형태소, 서브워드, 형태소 인지 서브워드 분절을 적용했을 떄, 형태소 인지 서브워드 분절 방식이 성능이 가장 좋았다. (한영/영한 모두)

3. Suggested Model

한영 번역을 기준으로 한다.
철자 분절은 hgtk (한글), 형태소는 koNLPy의 Okt (한글)와 SpaCy(영어), BPE는 openNMT-py의 빌트인 모델에 높은 동시 빈도 철자 집합을 학습하여 분절한다.

4. Experiment

AI HUb의 80만 문장을 98:1:1로 분리, 학습/검증/평가 데이터로 활용한다.
하이퍼 파라미터는 OpenNMT-py의 설정 그대로 적용한다.
결과를 보면 한국어 BPE+영어 형태소/BPE를 제외한 나머지 7개 모델에선 BLEU 스코어가 0점대로 유의미한 결과가 도출되지 않았다. 한국어 BPE+영어 형태소 조합이 스코어가 가장 높았다.

'논문 읽기' 카테고리의 다른 글

Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables (0)	2024.02.23
An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks (0)	2024.02.23
When Does Translation Require Context? A Data-driven, Multilingual Exploration (0)	2024.02.23
Knowledge Transfer in Incremental Learning for Multilingual Neural Machine Translation (0)	2024.02.23
StoryTrans : Non-Parallel Story Author-Style transfer with Discourse Representations and Content Enhancing (0)	2024.02.23

'논문 읽기' Related Articles

more

티스토리툴바