언어 전공자의 NLP 로그
Large Language Models are not fair Evaluators 본문
논문 출처 : https://arxiv.org/abs/2305.17926
Large Language Models are not Fair Evaluators
In this paper, we uncover a systematic bias in the evaluation paradigm of adopting large language models~(LLMs), e.g., GPT-4, as a referee to score and compare the quality of responses generated by candidate models. We find that the quality ranking of cand
arxiv.org
문제 의식
- GPT 모델을 사용해 만드는 퀄리티 랭킹이 단순히 컨텍스트 상 보여지는 순서를 바꾸기만 해도 조작이 가능함을 발견 -> 비쿠나 13B가 ChatGPT를 이기는 결과를 냈다?
- 위 문제를 해결하기 위해서 1) Multiple Evidence Calibration, 2) Balanced Position Calibration, 3) Human-in-the-Loop Calibration의 방법론 도입.
- BLEU, ROUGE나 여기서 발전된 BERTScore, BARTScore와 같은 메트릭도 모델의 답변이 사람의 의도와 맞게 정렬되었는지를 판단하기에는 부족. 효율적이고 가성비 좋은 자동화 평가 방식 필요
- ChatGPT와 GPT-4를 주석 및 평가의 용도로 활용하는 연구가 제기됨. 특히 Vicuna 평가 파이프라인에서 GPT-4로 점수를 매기는 방법론을 도입했는데, 과연 이 방법이 믿을만한가? 순서를 바꾸는 간단한 조작으로도 결과가 좌지우지되는 '아킬레스 건'
- 본 논문에서 주목한 것은 positional bias. GPT-4는 처음에 보여지는 답변을 선호하는 경향을 보임. ChatGPT는 두 번째 답변을 선호.
해결 방안
- Multiple Evidence Calibration (MEC) : 점수를 매기기 전에 평가 근거를 생성하도록 프롬프팅함. 이는 CLM의 성격을 극대화하는 방식. 여기에 앙상블 기법을 추가로 적용함.
- Balanced Position Calibration (BPC) : 각 응답을 두 번에 걸쳐 다르게 배치하고 그 평균 점수를 냄.
- Human In The Loop Calibration (HITLC) : 사람을 평가 루프에 포함시켜 MEC/BPC 평가 결과에 편향이 있는지 체크.
- Vicuna benchmark에서 ChatGPT 및 Vicuna-13B 모델 응답을 "이김/비김/짐"으로 9개 질문 영역에서 80개 질문에 대해 직접 주석을 달아 평가했고, 그 결과 GPT-4에서 9.8%, ChatGPT에서 14.3%의 정렬 정확도를 향상시킴. 추가로 HITLC로 추가적인 성능 향상을 보였는데, 이는 20%의 비용으로 추가적인 정렬 효과 발생. 39%의 비용 절감이 이루어졌다고 주장함.
평가
- LLM이 위치에 대해 심각한 편향을 보임을 밝힘
- 3가지의 간단하지만 효과적인 조정 프레임워크로 위치 편향을 조정함.
- 직접 ChatGPT와 Vicuna 13B 답변에 "이김/비김/짐"의 주석을 달아 이 방법이 효율적으로 사람의 판단에 정렬시킨다는 것을 증명함.
- 결과
- 각 연구자가 제공한 주석과 최종 투표 결과 사이에 높은 상관 관계가 존재 (이를 통해 human annotation의 정당성을 밝힌듯)
- 전체적으로 GPT-4가 사람의 판단과 정렬이 더 잘 된 결과를 보여줌.
- 일반적으로 사용하는 기본 평가 방법론보다 우리 방식이 정렬 측면에서 훨씬 향상됨.
- MEC(k=3)+BPC(k=3)이 MEC(k=6)보다 점수가 높다 -> 위치 편향이 있고, BPC로 이를 해소할 수 있다.
- HITLC로 정렬이 향상됨. 이때 20%만 적용해서 평가자 비용이 39% 감소했다고 함.
- 분석
- 근거 개수 k와 온도 t의 ablation study
- 평가 결과를 향상시키기 위해 k개의 근거를 앙상블해서 결과를 도출하는데, 그 관계를 1, 3, 5, 7 구간에서 살펴보면, k=3일 때 가장 좋음.
- 샘플링 온도 t를 0.2, 0.6, 1.0, 1.4 구간에서 살펴봤을 때, 낮으면 MEC 효과가 약해지고, 높으면 생성 품질이 저하되어 둘다 성능이 감소된다. 0.6이나 1.0이 적당함.
- BPDE의 효율성
- HITLC 적용할 때 BPDE 점수를 쓰는데, 그 효율성을 보기 위해 random, vanilla diversity entropy 방법을 BPDE와 비교해보았다. Random은 위치 응답을 랜덤하게 배치했을 때, VDE는 한쪽으로 고정했을 때의 결과이다. 결과는 BPDE가 전구간에서 더 높았음.
- 쌍 기반 비교 평가 템플릿 일반화
- 기존의 점수를 매기는 scoring 평가 방식에 추가로 comparing 평가 템플릿으로 분석을 확장해보자. 즉, 답변을 점수로 내는게 아니라 "Assistant 1", "Assistant 2", "동점"으로 내게 하는 것.
- 본 논문의 방법론은 두 가지 방식에 모두 적용이 가능하다.
- 두 탬플릿과 기존 바닐라 모델이 거의 6%의 정확도 차이를 보이는 게 LLM가 민감하게 반응함을 증명함.
- 평가 퀄리티 세분화
- Zheng et al. (2023)의 9개 카테고리에 따라 바닐라와 MEC+BPC 모델 성능을 비교
- 카테고리는 generic, knowledge, roleplay, common-sense, femi, counterfacutal, coding, math, writing으로 나뉨.
- 상식이나 코딩, 수학에서 GPT-4가 ChatGPT 압승
- MEC+BPC가 바닐라 압승
- 근거 개수 k와 온도 t의 ablation study
한계점
- 프롬프트에 '순서에 관계 없이' 점수를 매겨라고 해도 이를 무시한다고 논문에서 밝혔는데, '근거를 함께 제공해라'라는 명령이 제대로 작동할 것이라는 근거가 있나? 실제로 내뱉은 근거와는 상관 없이 정확도가 향상된다고는 하는데, 일종의 CoT처럼 작용을 한 것인지.
- AI가 친숙하고, 답변 퀄리티 평가 자질이 충분한 3명의 연구자가 직접 "이김/비김/짐" 주석을 달았다고 하는데, 이 부분은 면밀한 검증이 필요하지 않은 건가?
All of the annotators are researchers familiar with Artificial Intelligence and are well-equipped to assess the quality of the responses.
궁금증
- kappa correlation coefficient
2명의 관찰자의 신뢰도를 확보하기 위한 확률로, 평가 지표로 사용하는 상관 계수. (y, y) (n, n)의 비율인 $po$과 각 대답의 확률값을 더한 $pe$에 대하여 $po−pe1−pe$로 계산한다. 컨퓨전 매트릭스에서 도출할 수 있다.
'논문 읽기' 카테고리의 다른 글
| BooookScore: A Systematic Exploration of Book-length Summarization in the era of LLMs (0) | 2024.03.01 |
|---|---|
| GPTScore: Evaluate as You Desire (0) | 2024.03.01 |
| COMET: A Neural Framework for MT Evaluation (4) | 2024.02.29 |
| BLEURT: Learning Robust Metrics for Text Generation (2) | 2024.02.29 |
| BARTScore: Evaluating Generated Text as Text Generation (2) | 2024.02.29 |