Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

언어 전공자의 NLP 로그

Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외 본문

논문 읽기

Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외

JohnnyNLP 2024. 2. 23. 14:07

'Rich Character-level information for Korean morphological analysis and part-of-speech tagging'

논문 출처 : https://aclanthology.org/C18-1210/

Rich Character-Level Information for Korean Morphological Analysis and Part-of-Speech Tagging

Andrew Matteson, Chanhee Lee, Youngbum Kim, Heuiseok Lim. Proceedings of the 27th International Conference on Computational Linguistics. 2018.

aclanthology.org

한국어는 교착어로,
1. OOV 비율이 높고,
2. 비교적 어순이 자유로우며,
3. 존칭형, 명령형, 조건형 등 경우에 따라 어간까지도 변형하는 어미 활용이 일어나고,
4. 여러 불규칙 활용어들이 존재하는 언어이다.
이에 따라 어절을 의미 단위 구분인 형태소로 분리하고, 이를 바탕으로 품사를 태깅해야 하는 이중의 과정을 거쳐야 한다.
- 영어를 예로 들면, 어순이 상당 부분 고정되어 있고, 띄어쓰기 단위로 형태소 분석을 해도 문제가 없다.
- 위와 같은 특성 때문에 한국어의 형태소 분석은 다소 복잡한 과정을 거치게 된다.
본 논문에서는 Bi-LSTM 구조를 통해 한국어에 대한 문법적 사전 정보 없이 높은 정확도를 보여주는 POS 태깅 결과를 보여준다.
- 특히 어미 변화 과정에서 변형되고 새롭게 생성되는 형태소도 잡아내는 점이 인상적이다.

'Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph'

논문 출처 : https://aclanthology.org/C18-1229/

Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph

Dongsuk O, Sunjae Kwon, Kyungsun Kim, Youngjoong Ko. Proceedings of the 27th International Conference on Computational Linguistics. 2018.

aclanthology.org

WSD에는 지도 학습 방법과 지식 기반 DB를 이용한 비지도 학습 방식이 있다. 그러나 코퍼스에서 각 단어를 의미별 태깅하는 과정은 너무 비싸고 노동력이 많이 든다.
Wordnet과 같은 어휘 지식 베이스를 활용한 비지도 학습 방식이 더 많은 맥락 정보와 구문 지식을 가지고 있어 더 적합한 방식.
Navigli and Lapata, 2007 : 텍스트 안에 있는 모든 애매한 단어의 의미를 명료화하는 작업. 연산 비용이 지수함수적으로 증가하는 단점
Manion et al, 2014 : 반복적 서브그래프 구조로 문서 내 모든 단어를 삺보는 그리디 방식. 이 역시 불필요한 정보에 너무 많은 연산이 소모될 수 있다.
본 논문에서 사용한 방식 : 서브그래프를 만들 때 단어의 유사도를 기준으로 선별적으로 맥락을 제한한다.
- 어떤 단어가 애매한 단어와 유사도가 높을 수록 그 단어가 단어의 중의성을 해소하도록 기여하는 바가 클 것이다.
- 문서나 문장 전체의 주제와 관련된 단어 -> WSD에 더 유용한 단어
- 그러면 유사도는 어떻게? 지식기반 그래프 구조를 활용한 구문 정보를 word vector representation로 표현
- 단어 간 관계가 단어이고, 서브그래프가 문장이라면, 이를 담고 있는 전체 정보는 문서에 준할 수 있다.
- 따라서 Doc2Vec으로 생성한 워드 벡터와의 유사도를 구함으로써 기준을 세울 수 있다.
- 본 연구자들은 구문론적 유사성보다 의미론적 유사성이 더 중요하다고 가정하고, 덜 유사한 단어들을 제외했을 때 전체적인 WSD 정확도가 상승했음을 보였다.

'Message Understanding Conference - 6: A Brief History'

논문 출처 : https://aclanthology.org/C96-1079/

Message Understanding Conference- 6: A Brief History

Ralph Grishman, Beth Sundheim. COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. 1996.

aclanthology.org

본 논문은 총 6차례에 걸쳐 진행된 MUC에 대한 회고록이다.
MUC는 특이하게도 DARPA (군사 기관)의 후원을 받아 이루어졌는데, 그렇기 때문에 과제 역시 군사 정보에서 정보를 추출하는 목적으로 시작되었다.
당시 정보 추출 과제로서 채택된 것은 NER로, 개체명이 영어 대문자로 시작하는 영어의 특성처럼 참가자들이 문장의 국지적인 패턴만으로 정답을 찾는 경향이 지속되자 주최측은 언어 체계에 대한 이해를 심화하기 위한 과제 3개를 추가로 제안한다.
- 이때 제시된 것이 상호참조성 (Coreference), 단어 중의성 해소 (Word Sense Disambiguation), 술부 구조 (Predicate-argument structure)의 3개 하위 과제이다.
- 당시의 여러 기술적 제약 (아마도 데이터 라벨링 작업)으로 인해 실질적으로는 NER, template element, scenario template, coreference 4개의 항목에 대해서 평가가 이루어졌다.
Template element라는 과제는 NER에서 나아가 해당 개체에 대한 정보까지도 추출해내는 과제였기 때문에 난이도가 높았다.
이 논문이 제안된 것이 1996년도인데, 이때 처음 WSD 등과 같은 과제들이 제창되었다는 점이 흥미롭다.

'Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition'

논문 출처 : https://aclanthology.org/W15-4319/

Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition

Timothy Baldwin, Marie Catherine de Marneffe, Bo Han, Young-Bum Kim, Alan Ritter, Wei Xu. Proceedings of the Workshop on Noisy User-generated Text. 2015.

aclanthology.org

본 논문은 세미나에서 공동 협동 과제로 제시한 텍스트 정규화 작업과 개체명 인식 태깅 작업의 결과에 대한 보고서이다.
두 작업 모두 2014년 5월 23일~29일 사이에 올라온 영어 트위터 텍스트를 바탕으로 이루어진다.
Text normalization
- 텍스트 정규화 작업이란, 줄임말이나 오타, 은어의 사용이 빈번한 twitter에서 이를 표준어 형태로 바꾸는 작업을 의미한다.
- 정규화 작업의 경우, 어휘사전 기반 방식, CRF, 딥 러닝 기반 방식 등이 사용되었으며, Random Forest 기반의 방식을 차용한 팀이 가장 좋은 성과를 내었다.
Named Entity Recognition
- 개체명 인식 과제는 기사글을 바탕으로 이루어졌던 기성 방식과는 다르게 오타나 비표준어적 표현이 많은 twitter 글을 대상으로 하기에 난이도가 다소 존재한다.
- 이 경우, CRF 기반의 접근법이 가장 많았으며, POS, Orthographic, Gazetteers, Brown clustering, Word embedding의 사용 여부에 따라 여러 가지 시도의 조합이 돋보인다.
- 가장 좋은 성과를 냈던 팀은 entity linking이라는 방법을 사용했다. 특정 개체명에 대한 지식이 없을 경우, 더 방대한 지식 베이스로 학습한 지도 학습 기반 머신 러닝 모델로부터 정보를 유추해오는 기술인 것으로 보이며, 자체 소프트웨어를 사용했다.
- 특이하게 한림대에서 Brown clustering과 word embedding을 사용한 CRF 접근 방식으로 참가했다.

'A study of recent contributions on information extraction'

논문 출처 : https://arxiv.org/abs/1803.05667

A Study of Recent Contributions on Information Extraction

This paper reports on modern approaches in Information Extraction (IE) and its two main sub-tasks of Named Entity Recognition (NER) and Relation Extraction (RE). Basic concepts and the most recent approaches in this area are reviewed, which mainly include

arxiv.org

본 논문은 정보 추출의 2가지 메인 하위과제를 NER (개체명 인식)과 RE (관계 추출)로 설정하고, 당시에 제기되었던 규칙 기반, ML 기반, DL 기반 방법론들을 소개한다.
본 논문에서 IE 과제의 목표를 해당 도메인에 미리 정의된 개념들의 집합을 식별하고, 그외 무관한 정보는 무시하는 것으로 정의한다.
달리 말해서, IE 과제는 비정형 텍스트로부터 정보를 추출하고 이를 구조화된 텍스트로 전환하는 것이다.
따라서 이 과정에는 개체명 인스턴스와 관계, 사건, 그리고 이들 사이의 관계를 식별하는 것이 포함된다.
본 논문에서 언급하는 NER 방법론은 다음과 같다.
- ML 기반 지도 : 은닉 마르코프 모델 (HMM), 의사결정 트리 (DT), 최대 엔트로피 모델 (MEM), 서포트 벡터 모델 (SVM), 조건부 무작위장 (CRF)
- 반-지도 : bootstrapping
- 비지도 : 클러스터링
- DM 기반 : 워드 임베딩, CNN, RNN
이후 3장에서 여러 논문들을 리뷰하며, 해당 논문에 사용된 방법론을 한 단락으로 요약한다.
흥미로웠던 접근법은 [31]로, 전통적인 접근 방식에 현대적인 접근법을 차용했다고 한다.
- 처음에는 단어, n-gram, 그리고 위치 정보만을 추출한다.
- 이후 잠재 의미 (latent semantic property)를 식별할 수 있는 워드 임베딩을 조합하고, CNN을 통해 n-gram의 class를 식별한다.
- Look-up table, n-gram 인식, pooling 및 로지스틱 회귀의 4개 레이어로 관계를 추출한다.
- 해당 논문에서 제기된 방법론의 점수는 각각 71.25% (P), 53.91% (R), 61.3% (F-1)로 크게 높지는 않지만, 논문이 쓰인 2018년 당시 학계 동향이 ML 기반에서 DL 기반으로 넘어가는 과도기였던 것으로 보이며, CNN과 RNN에 특히 큰 관심을 가지는 것으로 해석할 수 있다.

'A Comparative Study on Korean Relation Extraction with entity position information'

논문 출처 : https://koreascience.kr/article/CFKO202130060668824.pdf

본 논문은 한국어로 된 논문으로, 입력 임베딩+분절 임베딩+위치 임베딩을 인풋으로 활용한 hidden state를 생성하고, 이를 통해 한국어 기반 사전 학습 모델에서 관계 추출 과제를 수행했을 때의 성능을 비교한다.
스탠다드, 스탠다드 관계추출 + 엔티티 위치 토큰, 엔티티 시작 토큰을 활용한 관계 추출 세 가지 방법을 각각 비교한다.
- 스탠다드 : [CLS] 토큰의 final hidden state만 사용
- 스탠다드 + 엔티티 위치 : E1과 E2 앞뒤 엔티티 위치 토큰을 추가하여 입력에 반영한다. 하지만 마찬가지로 final hidden state만 사용한다.
- 엔티티 시작 토큰 활용 : 엔티티 위치 토큰을 추가하고, 엔티티 시작 토큰인 [E1]과 [E2]의 final hidden state를 결합하여 사용한다.
결과는 모델마다 다소 상이하나, 4개 모델에서는 2번째 방법이, 2개 모델에서는 1번째 방법이 성능이 좋게 나왔다.

'논문 읽기' 카테고리의 다른 글

Machine Translation: Interlingual Methods (0)	2024.02.23
BLEU: a Method for Automatic Evaluation of Machine Translation (0)	2024.02.23
Personalizing Dialogue Agents: I have a dog, do you have pets too (1)	2023.11.01
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. (1)	2023.11.01
BLEU: a Method for Automatic Evaluation of Machine Translation (1)	2023.10.30

'논문 읽기' Related Articles

언어 전공자의 NLP 로그

Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외 본문

Rich Character-level information for Korean morphological analysis and part-of-speech tagging 외

'Rich Character-level information for Korean morphological analysis and part-of-speech tagging'

'Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph'

'Message Understanding Conference - 6: A Brief History'

'Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition'

'A study of recent contributions on information extraction'

'A Comparative Study on Korean Relation Extraction with entity position information'

'논문 읽기' 카테고리의 다른 글

티스토리툴바