Convolutional 2D Knowledge Graph Embeddings

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

언어 전공자의 NLP 로그

Convolutional 2D Knowledge Graph Embeddings 본문

논문 읽기

Convolutional 2D Knowledge Graph Embeddings

JohnnyNLP 2024. 2. 23. 14:22

논문 읽기 : https://arxiv.org/abs/1707.01476

Convolutional 2D Knowledge Graph Embeddings

Link prediction for knowledge graphs is the task of predicting missing relationships between entities. Previous work on link prediction has focused on shallow, fast models which can scale to large knowledge graphs. However, these models learn less expressi

arxiv.org

0. Abstract

Link prediction은 지식 그래프 속 객체 사이의 비어 있는 관계를 예측하는 NLP 과제이다.
이전까지 연결 예측은 큰 지식 그래프에 확대 적용 (scale)이 가능한 얕고 빠른 모델에 초점이 맞춰져 있었는데, 이는 깊은 다중 레이어 모델에 비해 표현력이 떨어져 성능에도 영향이 있다.
본 논문에서 제시하는 ConvE는 다중 합성곱 신경망 모델로, 파라미터 수 대비 효율이 좋다.
또한 기존의 데이터 셋 WN18과 FB15k는 훈련용 셋에서 사용된 관계의 역이 테스트 셋에 사용되는 중대한 문제가 있었는데, 이를 해결하기 위한 대체 데이터 셋을 제안한다.
이렇듯 더욱 강건한 데이터 셋으로 테스트 했을 떄 ConvE가 MRR에서 SOTA를 기록했다.

1. Introduction

지식 그래프는 수백만 개의 사실이 포함될 수 있으며, 이 때문에 연결 예측은 파라미터 수와 연산 비용 모두 현실에서 사용할 수 있도록 스케일이 용이해야 한다.
이 때문에 연결 예측 모델은 대부분 간단한 내적이나 행렬곱과 같은 연산으로 이루어져 있었고, 파라미터 수가 제한적이었다.
얕은 모델에서 특징의 수를 늘리려면 임베딩 사이즈를 늘려야 하는데, 이러면 더 큰 지식 그래프로 스케일링 할 수가 없다. 임베딩 사이즈가 그래프 내 개체와 관계 수와 비례해 커지기 때문이다. 예컨데, 임베딩 사이즈가 200인 DistMult 모델을 Freebase에 사용하려면 파라미터 메모리만 33 GB를 차지하게 된다.
임베딩 사이즈를 건드리지 않는 방법은 레이어 수를 늘리는 것인데, 기존의 다중 레이어 지식 그래프 임베딩 구조는 과적합 문제가 심했다.
얕은 구조의 스케일 문제를 해결하고, 과적합 문제를 피하는 방법은 파라미터 효율이 좋고 빠르면서 인공 신경망에 녹여낼 수 있는 빠른 연산을 활용하는 것이다.
컴퓨터 비전에서 주로 사용하는 합성곱 연산은 파라미터 효율적이고, 연산이 빠르다. 또한 흔한 사용법이다 보니 과적합을 피할 수 있는 강건한 방법론도 다수 제기되어 왔다.
본 논문에서 제안하는 ConvE는 임베딩에 2D 합성곱을 씌워 지식 그래프의 연결을 예측하는 모델이다. 간단한 구조로, 단일 합성곱 레이어, 임베딩 차원으로 투영하는 레이어, 그리고 내적 레이어로 구성된다.

2. Related Work

기존에 신경망 기반 연결 예측 모델은 TransE, DistMult, ComplEx, HoIE, GCNs, R-GCNs 등이 있다.
NLP에는 의미 분석, 문장 분류, 탐색 질의 검색, 문장 모델링 등의 과제가 있다. 그러나 대부분은 1D 합성곱 구조를 사용하기 때문에, 임베딩 내 단어 시퀀스와 같은 일시적인 임베딩 시퀀스에만 연산이 가능했다. 본 논문에서 활용하는 2D Conv는 임베딩을 공간 차원에서 다룬다.
2D 합성곱 연산을 활용하면 특징간의 상호작용을 더욱 다양하게 추출할 수 있다.

3. Background

지식 그래프 객체는 x = (s, r, o), 즉, 주체-관계-객체의 3원항으로 구성된다. 관계 예측 문제는 점 차원의 순위 문제 학습으로 구성이 가능한데, 이때 목적 함수의 점수 $ψ(x)∈R$는 x의 관계로 인코딩된 항이 참일 확률에 비례한다.
기존의 신경망 연결 예측 모델은 인코딩 부분과 스코어 부분으로 구성된다. 인코딩은 두 객체 s,와 o를 k차원의 공간에 임베딩하여 표현한다. 그러면 이를 $ψ$ 함수로 스코어를 매긴다. 즉, (s, r, o)의 점수는 $ψ(s,r,o)=ψ(es,eo)∈R$로 정의된다.

4. Convolutional 2D knowledge Graphs Embeddings

본 논문에서 제기하는 ConvE 모델의 Scoring 함수는 다음과 같이 정의된다.$rr∈Rk$는 r에 따라 결정되는 관계 파라미터, $es¯,rr¯$는 $es,rr$을 각각 2D로 리쉐입한 것. $es,rr∈Rk$이면 $es¯,rr¯∈Rkw∗kh where k=kwkh$
$ψr(es,eo)=f(vec(f([es¯;rr¯]∗w))W)eo$
모델 파라미터 학습 시 시그모이드를 적용하며 $p=σ(ψr(es,eo))$이고, 이때 이진 크로스-엔트로피 손실 함수 $L(p,t)=−1N∑i(ti⋅log(pi)+(1−ti)⋅log(1−pi))$를 최소화하도록 설계한다.
일반적으로 s와 o로부터 관계 r을 1-1 scoring하는데, 본 논문의 방식은 s와 r 쌍으로부터 모든 객체 o를 동시에 스코어링한다. (1-N scoring) 이러한 방식으로 전자보다 약 300배 빠른 평가 (evaluation)가 가능하다. 또한 이러한 방법으로 더 큰 그래프로 스케일링하면서도 수렴 속도의 이점을 누릴 수 있다. 구체적으로, 객체 수가 10배 늘어나면 연산 속도는 25% 증가한다.

5. Experiments

실험 단계에서 고려한 데이터 셋은 WN18, FB15k, YAGO3-10, Countries 등이다. 그런데 WN18과 FB15k는 훈련용 데이터 셋의 관계를 단순하게 뒤집은 게 테스트 셋에 포함되어 있다는 치명적인 결함이 있다. (워낙 심각하여 간단한 규칙 기반 모델로 SOTA 점수가 나올 정도였다.) 따라서 다른 연구자가 FB15k-237을, 본 연구자들이 WN18RR을 제시해 이를 대체한다.
하이퍼파라미터는 검증 셋의 MRR에 grid search 기법을 활용하여 결정했다. 여기에는 각종 dropout 비율, 임베딩, 배치 사이즈, 학습률, 라벨링 스무딩이 포함된다. 또한 1D나 완전 연결 레이어보다는 2D가, filter 사이즈는 3x3가 가장 효율이 좋았다.
또한 앞서 말한 WN18과 FN15k의 결함을 설명하기 위해 Inverse Model이라는 간단한 역 관계 모델로 실험을 진행했다.

6. Results

결과적으로 대부분의 영역에서 SOTA 혹은 그에 근접한 기록을 냈고, 기존의 모델보다 훨씬 작고 효율적이라는 모델을 증명했다.

7. Analysis

'United States'와 'was born in'의 엣지를 가지는 indegree는 무려 10,000이 넘는다. 이와 같이 다양한 분포를 가지는 indegree node를 정확히 예측하려면 DistMult같이 얕은 모델보다는 ConvE같이 깊은 모델이 유리할 것이다.
이를 위해 실제로 특정 관계의 indegree가 낮은 데이터 셋 (low-WN18)과 높은 데이터 셋 (high-FB15k)에서 둘의 비중을 바꿔 (high-WN18, low-FB15k) 실험했을 때도, ConvE는 high에 강세를 보임을 확인했다.
나아가 노드의 indegree 회귀성 척도인 PageRank를 살펴봤을 때, PageRank 점수가 높은 데이터 셋에 ConvE가 강할 것이라고 가설을 세울 수 있는데, 이 역시 대체로 일정한 경향성을 보였다. (즉, 관계가 얕을 수록 얕은 모델이, 복잡할 수록 깊은 모델이 유리)

8. Conclusion and Future Work

연구 결과로 살펴본 ConvE의 특징은 다음과 같다.
- 적은 수의 파라미터
- 1-N Scoring으로 속도 빠름
- 비선형 특징의 다중 레이어로 표현력이 좋음
- 배치 정규화와 드롭아웃으로 과적합에 강건함
- 일부 데이터 셋에서 SOTA 기록
- 큰 지식 그래프에 스케일링 가능
- Indegree가 큰 데이터 셋에 강함
컴퓨터 비전에 사용되는 합성곱 네트워크에 비하면 2D 레이어도 얕은 축에 속한다. 이에 임베딩 간 상호 작용을 늘릴 수 있도록 임베딩 공간의 더 큰 규모의 구조를 강제하는 방법을 추후 연구 과제로 삼는다.

'논문 읽기' 카테고리의 다른 글

Cross-lingual Language Model Pretraining (0)	2024.02.23
Efficient Estimation of Word Representations in Vector Space (0)	2024.02.23
Language Modelling Makes Sense: Propagating Representations through WordNet for Full-Coverage Word Sense Disambiguation (0)	2024.02.23
Transformer: Attention is All you need (0)	2024.02.23
Applying Natural Language Generation to Indicative Summarization (0)	2024.02.23

'논문 읽기' Related Articles

언어 전공자의 NLP 로그

Convolutional 2D Knowledge Graph Embeddings 본문

Convolutional 2D Knowledge Graph Embeddings

'논문 읽기' 카테고리의 다른 글

티스토리툴바