언어 전공자의 NLP 로그
Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables 본문
논문 읽기
Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables
JohnnyNLP 2024. 2. 23. 14:41논문 출처 : https://koreascience.kr/article/JAKO202111037333482.page
Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung
Abstract Since Neural Machine Translation (NMT) uses only a limited number of words, there is a possibility that words that are not registered in the dictionary will be entered as input. The proposed method to alleviate this Out of Vocabulary (OOV) problem
koreascience.kr
1. Abstract
- 서브 워드 분절은 고정된 단어 사전 개수로 인한 UNK 문제를 해결하기 위해 제안되었고, 이는 성능 향상으로 이어진다. 여기에 한국어의 무한한 용언 활용을 더 잘 설명할 수 있는 새로운 토큰화 방법을 제안한다.
2. 서브워드 분절 알고리즘 연구
- BPE 알고리즘 사용 시 단점은 등장 빈도가 낮은 쌍의 병합이 잘 이루어지지 않는다는 점과, 빈도수가 높은 쌍을 병합하기 때문에 잘못된 분절 결과가 나올 수 있다는 점이다. 또한 표현에 따라 의미가 같은 데도 형태가 달라 다르게 간주하는 경우가 발생한다.
- Unigram language model tokenizer는 빈도가 아닌 확률 기반으로 쌍을 병합하므로 다양한 방법의 분절 결과를 얻을 수 있다.
- 특정 크기의 단어 집합을 고정하고 EM 알고리즘으로 서브 워드의 등장 확률을 최적화한다.
- 각 서브워드에 대해 크로스 엔트로피 값을 추정한다.
- 손실값이 큰 순으로 나열하고 상위 n%만 남긴다.
- BPE-Dropout 방식은 BPE merge table 중 무작위 비율로 dropout을 시행하는 새로운 서브워드 정규화 방법으로, 드물게 나타나는 단어를 잘 처리한다.
- WPM은 BPE와 유사하지만 빈도수가 아닌 우도를 높이는 방식으로 단어를 병합한다.
- SPM은 언어의 특성과 무관하게 전처리 없이 원 문장을 바로 학습하여 BPE, Unigram language model 등을 사용할 수 있도록 만들어낸 end-to-end 시스템이다.
3. 한국어에 특화된 음절 기반 종성 토큰화 방법론
- 초성+중성과 종성을 분리하여 용언의 수많은 활용형을 적절하게 분절할 수 있다.
4. 실험
- 베이스라인 모델은 SPM의 unigram language model로, BLEU 점수는 16.93이다.
- 이후 종성만 분리한 방식과 음절 단위로 분절한 방식을 비교했을 때, 전자의 점수가 0.22 높은 17.15였다.
- Beam size를 조절하여 성능을 비교했을 때 k=8 기준 17.36으로 추가적인 상승이 일어났다.
- 사전 확인 결과, 명사는 온전히 의미가 보전되고, 용언은 그 활용형과 어간이 적절히 분리된 경우를 확인할 수 있었다.
5. 결론
- 한국어의 무한한 용언 활용에 따른 동일 어간 이형 활용형이 각기 다른 단어로 학습되는 서브워드 분절의 한계를 보완하고자 종성만 음절에서 분리하는 새로운 분절 방식을 제안한다.\