언어 전공자의 NLP 로그
Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외 본문
Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외
JohnnyNLP 2024. 2. 23. 14:07'Rich Character-level information for Korean morphological analysis and part-of-speech tagging'
논문 출처 : https://aclanthology.org/C18-1210/
Rich Character-Level Information for Korean Morphological Analysis and Part-of-Speech Tagging
Andrew Matteson, Chanhee Lee, Youngbum Kim, Heuiseok Lim. Proceedings of the 27th International Conference on Computational Linguistics. 2018.
aclanthology.org
- 한국어는 교착어로,
- OOV 비율이 높고,
- 비교적 어순이 자유로우며,
- 존칭형, 명령형, 조건형 등 경우에 따라 어간까지도 변형하는 어미 활용이 일어나고,
- 여러 불규칙 활용어들이 존재하는 언어이다.
- 이에 따라 어절을 의미 단위 구분인 형태소로 분리하고, 이를 바탕으로 품사를 태깅해야 하는 이중의 과정을 거쳐야 한다.
- 영어를 예로 들면, 어순이 상당 부분 고정되어 있고, 띄어쓰기 단위로 형태소 분석을 해도 문제가 없다.
- 위와 같은 특성 때문에 한국어의 형태소 분석은 다소 복잡한 과정을 거치게 된다.
- 본 논문에서는 Bi-LSTM 구조를 통해 한국어에 대한 문법적 사전 정보 없이 높은 정확도를 보여주는 POS 태깅 결과를 보여준다.
- 특히 어미 변화 과정에서 변형되고 새롭게 생성되는 형태소도 잡아내는 점이 인상적이다.
'Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph'
논문 출처 : https://aclanthology.org/C18-1229/
Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
Dongsuk O, Sunjae Kwon, Kyungsun Kim, Youngjoong Ko. Proceedings of the 27th International Conference on Computational Linguistics. 2018.
aclanthology.org
- WSD에는 지도 학습 방법과 지식 기반 DB를 이용한 비지도 학습 방식이 있다. 그러나 코퍼스에서 각 단어를 의미별 태깅하는 과정은 너무 비싸고 노동력이 많이 든다.
- Wordnet과 같은 어휘 지식 베이스를 활용한 비지도 학습 방식이 더 많은 맥락 정보와 구문 지식을 가지고 있어 더 적합한 방식.
- Navigli and Lapata, 2007 : 텍스트 안에 있는 모든 애매한 단어의 의미를 명료화하는 작업. 연산 비용이 지수함수적으로 증가하는 단점
- Manion et al, 2014 : 반복적 서브그래프 구조로 문서 내 모든 단어를 삺보는 그리디 방식. 이 역시 불필요한 정보에 너무 많은 연산이 소모될 수 있다.
- 본 논문에서 사용한 방식 : 서브그래프를 만들 때 단어의 유사도를 기준으로 선별적으로 맥락을 제한한다.
- 어떤 단어가 애매한 단어와 유사도가 높을 수록 그 단어가 단어의 중의성을 해소하도록 기여하는 바가 클 것이다.
- 문서나 문장 전체의 주제와 관련된 단어 -> WSD에 더 유용한 단어
- 그러면 유사도는 어떻게? 지식기반 그래프 구조를 활용한 구문 정보를 word vector representation로 표현
- 단어 간 관계가 단어이고, 서브그래프가 문장이라면, 이를 담고 있는 전체 정보는 문서에 준할 수 있다.
- 따라서 Doc2Vec으로 생성한 워드 벡터와의 유사도를 구함으로써 기준을 세울 수 있다.
- 본 연구자들은 구문론적 유사성보다 의미론적 유사성이 더 중요하다고 가정하고, 덜 유사한 단어들을 제외했을 때 전체적인 WSD 정확도가 상승했음을 보였다.
'Message Understanding Conference - 6: A Brief History'
논문 출처 : https://aclanthology.org/C96-1079/
Message Understanding Conference- 6: A Brief History
Ralph Grishman, Beth Sundheim. COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. 1996.
aclanthology.org
- 본 논문은 총 6차례에 걸쳐 진행된 MUC에 대한 회고록이다.
- MUC는 특이하게도 DARPA (군사 기관)의 후원을 받아 이루어졌는데, 그렇기 때문에 과제 역시 군사 정보에서 정보를 추출하는 목적으로 시작되었다.
- 당시 정보 추출 과제로서 채택된 것은 NER로, 개체명이 영어 대문자로 시작하는 영어의 특성처럼 참가자들이 문장의 국지적인 패턴만으로 정답을 찾는 경향이 지속되자 주최측은 언어 체계에 대한 이해를 심화하기 위한 과제 3개를 추가로 제안한다.
- 이때 제시된 것이 상호참조성 (Coreference), 단어 중의성 해소 (Word Sense Disambiguation), 술부 구조 (Predicate-argument structure)의 3개 하위 과제이다.
- 당시의 여러 기술적 제약 (아마도 데이터 라벨링 작업)으로 인해 실질적으로는 NER, template element, scenario template, coreference 4개의 항목에 대해서 평가가 이루어졌다.
- Template element라는 과제는 NER에서 나아가 해당 개체에 대한 정보까지도 추출해내는 과제였기 때문에 난이도가 높았다.
- 이 논문이 제안된 것이 1996년도인데, 이때 처음 WSD 등과 같은 과제들이 제창되었다는 점이 흥미롭다.
'Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition'
논문 출처 : https://aclanthology.org/W15-4319/
Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition
Timothy Baldwin, Marie Catherine de Marneffe, Bo Han, Young-Bum Kim, Alan Ritter, Wei Xu. Proceedings of the Workshop on Noisy User-generated Text. 2015.
aclanthology.org
- 본 논문은 세미나에서 공동 협동 과제로 제시한 텍스트 정규화 작업과 개체명 인식 태깅 작업의 결과에 대한 보고서이다.
- 두 작업 모두 2014년 5월 23일~29일 사이에 올라온 영어 트위터 텍스트를 바탕으로 이루어진다.
- Text normalization
- 텍스트 정규화 작업이란, 줄임말이나 오타, 은어의 사용이 빈번한 twitter에서 이를 표준어 형태로 바꾸는 작업을 의미한다.
- 정규화 작업의 경우, 어휘사전 기반 방식, CRF, 딥 러닝 기반 방식 등이 사용되었으며, Random Forest 기반의 방식을 차용한 팀이 가장 좋은 성과를 내었다.
- Named Entity Recognition
- 개체명 인식 과제는 기사글을 바탕으로 이루어졌던 기성 방식과는 다르게 오타나 비표준어적 표현이 많은 twitter 글을 대상으로 하기에 난이도가 다소 존재한다.
- 이 경우, CRF 기반의 접근법이 가장 많았으며, POS, Orthographic, Gazetteers, Brown clustering, Word embedding의 사용 여부에 따라 여러 가지 시도의 조합이 돋보인다.
- 가장 좋은 성과를 냈던 팀은 entity linking이라는 방법을 사용했다. 특정 개체명에 대한 지식이 없을 경우, 더 방대한 지식 베이스로 학습한 지도 학습 기반 머신 러닝 모델로부터 정보를 유추해오는 기술인 것으로 보이며, 자체 소프트웨어를 사용했다.
- 특이하게 한림대에서 Brown clustering과 word embedding을 사용한 CRF 접근 방식으로 참가했다.
'A study of recent contributions on information extraction'
논문 출처 : https://arxiv.org/abs/1803.05667
A Study of Recent Contributions on Information Extraction
This paper reports on modern approaches in Information Extraction (IE) and its two main sub-tasks of Named Entity Recognition (NER) and Relation Extraction (RE). Basic concepts and the most recent approaches in this area are reviewed, which mainly include
arxiv.org
- 본 논문은 정보 추출의 2가지 메인 하위과제를 NER (개체명 인식)과 RE (관계 추출)로 설정하고, 당시에 제기되었던 규칙 기반, ML 기반, DL 기반 방법론들을 소개한다.
- 본 논문에서 IE 과제의 목표를 해당 도메인에 미리 정의된 개념들의 집합을 식별하고, 그외 무관한 정보는 무시하는 것으로 정의한다.
- 달리 말해서, IE 과제는 비정형 텍스트로부터 정보를 추출하고 이를 구조화된 텍스트로 전환하는 것이다.
- 따라서 이 과정에는 개체명 인스턴스와 관계, 사건, 그리고 이들 사이의 관계를 식별하는 것이 포함된다.
- 본 논문에서 언급하는 NER 방법론은 다음과 같다.
- ML 기반 지도 : 은닉 마르코프 모델 (HMM), 의사결정 트리 (DT), 최대 엔트로피 모델 (MEM), 서포트 벡터 모델 (SVM), 조건부 무작위장 (CRF)
- 반-지도 : bootstrapping
- 비지도 : 클러스터링
- DM 기반 : 워드 임베딩, CNN, RNN
- 이후 3장에서 여러 논문들을 리뷰하며, 해당 논문에 사용된 방법론을 한 단락으로 요약한다.
- 흥미로웠던 접근법은 [31]로, 전통적인 접근 방식에 현대적인 접근법을 차용했다고 한다.
- 처음에는 단어, n-gram, 그리고 위치 정보만을 추출한다.
- 이후 잠재 의미 (latent semantic property)를 식별할 수 있는 워드 임베딩을 조합하고, CNN을 통해 n-gram의 class를 식별한다.
- Look-up table, n-gram 인식, pooling 및 로지스틱 회귀의 4개 레이어로 관계를 추출한다.
- 해당 논문에서 제기된 방법론의 점수는 각각 71.25% (P), 53.91% (R), 61.3% (F-1)로 크게 높지는 않지만, 논문이 쓰인 2018년 당시 학계 동향이 ML 기반에서 DL 기반으로 넘어가는 과도기였던 것으로 보이며, CNN과 RNN에 특히 큰 관심을 가지는 것으로 해석할 수 있다.
'A Comparative Study on Korean Relation Extraction with entity position information'
논문 출처 : https://koreascience.kr/article/CFKO202130060668824.pdf
- 본 논문은 한국어로 된 논문으로, 입력 임베딩+분절 임베딩+위치 임베딩을 인풋으로 활용한 hidden state를 생성하고, 이를 통해 한국어 기반 사전 학습 모델에서 관계 추출 과제를 수행했을 때의 성능을 비교한다.
- 스탠다드, 스탠다드 관계추출 + 엔티티 위치 토큰, 엔티티 시작 토큰을 활용한 관계 추출 세 가지 방법을 각각 비교한다.
- 스탠다드 : [CLS] 토큰의 final hidden state만 사용
- 스탠다드 + 엔티티 위치 : E1과 E2 앞뒤 엔티티 위치 토큰을 추가하여 입력에 반영한다. 하지만 마찬가지로 final hidden state만 사용한다.
- 엔티티 시작 토큰 활용 : 엔티티 위치 토큰을 추가하고, 엔티티 시작 토큰인 [E1]과 [E2]의 final hidden state를 결합하여 사용한다.
- 결과는 모델마다 다소 상이하나, 4개 모델에서는 2번째 방법이, 2개 모델에서는 1번째 방법이 성능이 좋게 나왔다.