언어 전공자의 NLP 로그
GPTScore: Evaluate as You Desire 본문
논문 출처 : https://arxiv.org/abs/2302.04166
GPTScore: Evaluate as You Desire
Generative Artificial Intelligence (AI) has enabled the development of sophisticated models that are capable of producing high-caliber text, images, and other outputs through the utilization of large pre-trained models. Nevertheless, assessing the quality
arxiv.org
문제 의식
- GPT의 창발 능력 (제로샷 인스트럭션)을 활용해 생성문의 점수를 매기는 메트릭.
- 80M에서 175B까지 이르는 19개의 사전학습 모델을 4개의 생성 태스크, 22개의 평가 항목, 37개의 데이터셋으로 실험하여 자연어 인스트럭션으로 간단하게 평가할 수 있는 방법을 제시함.
- 기존 방법의 한계점
- (a) : 기존 메트릭은 평가 항목이 제한적 (의미적 동질성, 유창성 등)이고, exclusive하게 커스터마이징해서 쓰기 때문에 '필요한 대로' 이를 활용하기 어렵다.
- (b) : 단일 항목이 아닌 멀티로 평가하는 방법이 제안되기도 했지만, 평가 항목의 정의나 그들간의 잠재적 관계에 충분한 관심이 쏠리지 않았다. 평가 항목은 경험적으로 기존 메트릭 변형에 그치거나, 지도 학습 시그널로 학습하는 방법으로 이루어졌다.
- (c) : 최근 제안된 평가 방법론 (Dialogpt를 활용한 비지도 평가, COMET, 발화간 동적 정보 플로우 모델링, 통합된 다차원 평가모델을 항하여)에서는 복잡하고 샘플 생성에 비용이 많이 드는 절차를 필요로 하여 입맛에 맞게 사용하기가 어렵다.
해결 방안
- GPT-3와 같은 초대형 사전학습 언어 모델을 활용한 다항목, 맞춤형, 학습불필요 평가 방식을 제안함.
- 고품질 텍스트라면 GPT같이 학습이 잘 된 모델이 뱉어낼 확률이 더 높을 것 (given context - conditional generation)
- Evaluation protocol : (a) 생성 태스크 구체화, (b) 평가 항목 정의, (c) 퓨샷 샘플 제공, (d) GPT가 확률을 계산함. 백본 모델은 GPT2, OPT, FLAN, GPT3
- 공식은 다음과 같다: $y=f(h,a,S)$, h는 생성문, a는 평가 항목, S는 예시, f는 사람의 평가나 자동화 평가 메트릭으로 예를 들 수 있음.
- meta-evaluation은 스피어만, 피어슨으로 측정, 사람이 평가한 점수 (gold)와 자동화 점수의 상관계수를 평균내어 sample 단위 점수를 매기고 (개별 비교), 전체 시스템의 아웃풋의 상관계수를 구해 dataset 단위의 점수를 매김 (전체 트렌드 비교).
- 실험 방식
- 인스트럭션, 예시가 둘 다 없는 상황 (VAL), 인스트럭션만 있는 상황 (IST), 둘다 있는 상황 (IDM)으로 구분
- 요약 : (1) 인스트럭션이 성능을 많이 향상시킨다. (2) 디코더 온리 모델에서 인스트럭션이 더 안정적이다.
- 번역 : (1) 인스트럭션이 ACC, FLU, MQM에서 성능을 많이 향상시킨다. (2) IDM이 성능 향상을 가져온다. (3) GPT3-c01 성능이 GPT3-d01과 GPT3-d03에 견줄만 했다. (가성비 좋다고 언급)
- D2T : (1) IST, IDM 모두 성능 향상. (2) 디코더 온리 모델이 예시를 더 잘 이용. (3) GPT3이 비정형 텍스트에서 강한 적응력을 보였다. (NER 등)
- 대화 : (1) GPT3-d01이 GPT3-d03보다 훨씬 나았다. (2) GPT3 기반 모델이 일반화 능력이 뛰어나다.
- Ablation
- 예시의 개수는 몇 개가 적절한가?
- 4개를 넘어갈 때 한계효용
- 예시가 1-2개면 작은 모델은 오히려 성능 감소 발생
- 관련도가 높은 항목을 함께 물어봐주니까 성능이 더 높게 나왔다! (사람의 답변과 더 유사하게 답했다)
- 예시의 개수는 몇 개가 적절한가?
평가
- 인스트럭션이 주어질수록, 예시가 주어질수록 GPTScore의 유사도는 높아진다.
- 디코더 온리 모델 (GPT)과 인코더-디코더 모델 (T5)을 비교했을 때, 전자에서 안정성이 더 높았다.
한계점
- 논문을 읽기도 전에 든 생각이, GPT 모델을 기준으로 평가 메트릭을 삼으면 OpenAI의 정책에 따라 사용이 제한될 수 있는 게 아닌가? 예컨대, 리그오브레전드가 올림픽 종목으로 채택되었을 때도 가장 큰 논란이었던 점이 한개 기업이 종목의 룰을 좌지우지하거나 영향을 줄 수 있다는 점이었는데, 같은 맥락에서 OpenAI의 모델 업데이트, 정책 변경 등에 좌우될 수 밖에 없는 한계점이 있는 것 같다.
- 지난주 발표에서도 나왔는데, 사람이 스크립트로 확률이 어떠한지를 물어보는 것이랑, 생성 모델이 자체 로짓으로 확률값을 뱉어내는 과정이 완전히 일치하지 않는다는 한계가 존재한다. Reliability의 관점에서 보았을 때 의문점이 드는 부분이 많다.
- GPTScore의 핵심은 고품질의 생성문이 생성 확률이 더 높다고 보는 건데... 과연 그럴까?
궁금증
- zero-shot instruction을 언급하는데, 논문에서 제안하는 방법론은 퓨샷 인스트럭션 아닌가?
Subsequently, each evaluation sample will be presented with the evaluated protocol with optionally moderate exemplar samples, which could facilitate the model's learning
due to their superior capacity for zero-shot instruction and their aptitude for in-context learning
zero-shot 능력과 in-context 능력이 뛰어나다 == few shot도 잘한다?
- MQM? Multidimensional Quality Metrics
- Appendix A의 각 메트릭 비교

- 프롬프트를 그냥 OpenAI에서 제공하는 가이드라인을 썼다고 하는데, 이 부분에서는 더 연구할 게 없는 건지?
'논문 읽기' 카테고리의 다른 글
| BooookScore: A Systematic Exploration of Book-length Summarization in the era of LLMs (0) | 2024.03.01 |
|---|---|
| Large Language Models are not fair Evaluators (3) | 2024.03.01 |
| COMET: A Neural Framework for MT Evaluation (4) | 2024.02.29 |
| BLEURT: Learning Robust Metrics for Text Generation (2) | 2024.02.29 |
| BARTScore: Evaluating Generated Text as Text Generation (2) | 2024.02.29 |