언어 전공자의 NLP 로그
Machine Translation: Interlingual Methods 본문
https://www.semanticscholar.org/paper/Machine-Translation%3A-Interlingual-Methods-Dorr-Hovy/81466e7699334077dbd7948af109405bce22d581
www.semanticscholar.org
개요
- 만약 모든 언어로부터 의미 단위만 추출하여 일종의 국제적 언어를 만들어낼 수 있을까? 이것이 가능하다고 봤던 연구자들이 내세운 개념이 바로 Interlingua이다. 영어 사전에는 과학자용 인공 국제어라고 나타나는데, 어떤 언어로든 변화가 가능한 형태의 일종의 가상 언어인 셈이다.
- 서론에서 연구자들은 기계 번역 방법론을 직접, 전이, 인공통합의 3가지로 구분한다. 분석의 깊이에 따라, 단어 층위에서 접근하면 직접, 구문론/의미론적 층위에서 접근하면 전이, 그리고 그 전이를 하나의 단일한 기저 표현, 인공통합어로 가져가는 방식이 인공통합이다. 이 Interlingua는 출발어와 도착어를 동시에 표상한다.
- 위로 올라갈 수록 분석에 필요한 노력은 많아지지만, 반대편으로 건너가는 것은 상대적으로 수월해진다.

- 이론 상으로 Interlingua는 어떤 언어로든 생성 작업이 가능해지기 때문에, 고려하는 도착어가 다양할수록 당연하게도 interlingua의 가치는 올라간다. 뿐만 아니라, 언어간 정보 검색, 요약, QA 등 다양한 NLP 과제에도 이를 활용할 수 있다. 즉, 이론 상으로는 너무나 완벽한 방식이다. 이론 상으로는..
- 1995년에 KANT라는 이름으로 상용화된 interlingua 모델이 있다고는 하는데, 기본적으로 규칙 기반이라 성능이 뛰어나지는 않았던 것같다.
- Interlingua 시스템은 Symbol, Notation, Lexicon으로 구성되며, 이는 가장 넓은 개념부터 세부적인 개념의 순서이다.
- Symbols : 상징이란, 특정 대상, 사건, 관계, 자질 등을 나타내는 큰 집합과, 세부적인 의미의 장을 표상하는 작은 집합으로 구분될 수 있다. 이처럼 interlingual MT 시스템은 아주 보편적인, 존재론적인 상위 모델과 도메인 특화의 세부 모델로 구성되는 것이 일반적이며, 이는 경제, 스포츠, 화학 등 분야마다 사용되는 언어의 다양한 의미를 제한하기 위함이다. 이러한 상위 MT 온톨로지 모델로는 ONTOS, SENSUS, Mikrokosmos/OntoSem 등이 있다고 하며, **WordNet 역시 이러한 시도의 일환이다**.
- Notation : 표기는 상징의 개별적인 의미를 조합해서 복잡한 의미를 나타내기 위한 수단이다. 이는 상징을 활용하는 각 명제의 중첩 프레임 형태로 나타낸다. 각 프레임은 헤더와 하나 이사의 명제가 포함된다. 인칭 문법, 메타 텍스트 정보 등이 포함될 수 있다.
- Lexicon : 어휘는 특정 언어의 특성과 양상에 대한 정보를 담는다. 언어에 따라 행위를 나타내는 Predicate, 사건의 참가자인 Argument가 결정되고, 이에 따라 predicate-argument structure가 형성된다. Semantic role이 이를 나타내는 가장 보편적인 방법이고, 문장의 각 부분을 동사를 기준으로 Agent, Theme, Instrument로 구분한다.
- Interlingua 체계의 문제.
- 의미의 복잡성 : 도대체 어떻게 언어 중립적인 언어 표상이 가능할까? (한쪽 언어에 치우치면 이를 shallow semantic이라 한다)
- 너무 상세하지도 너무 추상적이지도 않은 그 중간을 찾는 것이 필요. 그러나 이를 위해서는 상당한 수준의 도메인 지식과 정보가 필요함.
- 11만 노드의 WordNet 기반 Omega vs 6000 개념의 Mikrokosmos 기반 Omega
- 전자는 특정 개념과 구분하기 어려운 유의어가 너무 많이 존재하고, 후자는 아예 그 개념이 존재하질 않는다.
- 스타일의 부재 : Interlingua로 번역한 문장은 소위 말하는 '번역체'스럽다. 즉, 원문의 paraphrase에 불과하다. 원문의 문체와 강세가 모두 소실되기 때문. 즉, 미묘한 맥락/뉘앙스를 살릴 수 없다.
- 언어 체계 간 차이점 : 특정 언어에는 다른 언어에 존재하지 않는 개념과 구분이 존재한다. 이를 모두 반영하기란 불가능.
- 의미의 복잡성 : 도대체 어떻게 언어 중립적인 언어 표상이 가능할까? (한쪽 언어에 치우치면 이를 shallow semantic이라 한다)
- 이후 4장-5장에 걸쳐 지금까지 만들어져 온 여러 Interlingua 시스템에 대해서 소개한다.
- Pangloss, Mikrokosmos/OntoSem, JapanGloss, KANT, JANUS,UNL, LCS 등