Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

언어 전공자의 NLP 로그

Enriching word vectors with subword information 본문

논문 읽기

Enriching word vectors with subword information

JohnnyNLP 2024. 2. 23. 14:30

논문 출처 : https://arxiv.org/abs/1607.04606

 

Enriching Word Vectors with Subword Information

Continuous word representations, trained on large unlabeled corpora are useful for many natural language processing tasks. Popular models that learn such representations ignore the morphology of words, by assigning a distinct vector to each word. This is a

arxiv.org

 

0. 짧은 요약

  • 본 논문은 앞서 읽었던 Mikolov의 2013년도 word2vec을 참조했다고 하며, Facebook에서 2017년 공개된 fasttext 기법을 설명한다.
  • 임베딩 관련 논문의 대부분이 word2vec을 참조하고 있는데, (SentencePiece, sent2vec, GloVe 등등) 본 논문은 사실상 word2vec의 기법을 subword 단위로 분절했다는 점을 배고는 거의 동일하게 가져간다.
  • 이러한 subword 기반 fasttext의 특징으로는 큰 말뭉치를 빠르게 학습할 수 있고, OOV 문제를 해결할 수 있다는 점이다.
  • 특히, word2vec에서는 띄어쓰기 기반 word 단위로 앞뒤를 살피기 때문에, 애초부터 처음 보는 단어가 등장하면 해당 단어에 대한 표상을 나타내기가 어려운데, 이러한 점을 간단하게 해소한 점이 인상적이다.

1. Introduction

  • 연구자들은 앞선 선행 임베딩 기술이 대부분 단어집의 각 단어가 별개의 벡터로 파라미터 쉐어링이 이루어지지 않는다는 점을 지적하며, 이러한 방식으로는 단어의 내부 구조, 특히 터키어나 핀란드어처럼 형태소 정보가 풍부한 단어의 특징을 반영하지 못한다고 주장한다. (이는 한국어도 마찬가지)
  • 따라서 문자 (character) 단위의 정보를 활용한 임베딩 기법을 제안한다.

2. Related Work

  • 형태론적인 단어 표현과 문자 단위 feature 형성 방식에 대해 선행 연구들을 분석한다.

3. Model

  • 본 논문에서 형태소 정보와 단어 표현을 동시에 익히기 위한 방법은 기본적으로 Word2Vec의 목적 함수와 동일한데, 네거티브 샘플링을 통한 이진 분류로 학습을 한다는 점이 그러하다.
  • 단, word2vec에서는 각 단위가 word였다면, 이를 조금 더 잘게 쪼개어 각 단어를 구성하는 subword들을 윈도우 단위로 분절하고, 각 subword의 vector와 해당 단어 (context word)의 벡터를 내적한 것을 scoring function으로 구현한다.

6. Qualitative Analysis

  • Nearest Neighbors : 복잡하고, 기술적이며, 빈도수가 낮은 단어의 최근접 이웃 결과가 더 좋게 나타났다.
  • Character n-grams and morphemes : 각 단어 w는 자신의 n그램 벡터의 합으로 나타난다. 이때 각각의 n그램 벡터들을 자기 자신 단어와 유사도 분석을 했을 때, 놀랍게도 높은 순위의 n그램 벡터들 (즉, 단어 w를 잘 표상하는 단어 표현)이 형태소 단위로 분절되는 점을 알 수 있었다. (autofahrer -> auto + fahrer)
  • Word similarity for OOV words : 모델이 처음 만난 단어들 역시 n그램 벡터의 합으로 나타내면, 위 결과와 유사하게 비슷한 의미를 나타내는 형태소 벡터와 유사도가 높게 나타나는 것을 확인할 수 있다. (microcircuit은 chip과 micro / circuit에서 유사도가 높게 나타난다)