언어 전공자의 NLP 로그
BARTScore: Evaluating Generated Text as Text Generation 본문
논문 출처 : https://arxiv.org/abs/2106.11520
BARTScore: Evaluating Generated Text as Text Generation
A wide variety of NLP applications, such as machine translation, summarization, and dialog, involve text generation. One major challenge for these applications is how to evaluate whether such generated texts are actually fluent, accurate, or effective. In
arxiv.org
문제 의식
- 생성 텍스트의 품질을 어떻게 평가할 것인가?
- 생성 모델은 그 자체로 자동화된 평가 지표의 기능을 효율적으로 수행하지만, 텍스트 생성 목표로 모델을 사전학습하는 방식과 이를 down-stream feature extractor로 사용하는 방식 사이에 단절이 발생. (사전학습과 다운스트림 과제 사이에 간극이 있다는 의미인 듯)
- 기존의 평가 지표는 관점이 제한적
- BLEU는 번역문의 적절함 (adequacy)과 유창함 (fluency)
- ROUGE는 의미의 포함 여부를 판단
- 기존의 평가 모델의 접근 방식
- unsupervised matching : 참조문과 가설문 사이의 의미적 동질성을 토큰 단위로 매칭하여 평가. BERTScore, MoverScore, ROUGE, BLEU, CHRF 등.
- supervised regression : 사람의 판단을 예측하는 지도 학습 모델로 만든 회귀 레이어를 통해 평가. BLEURT, COMET, $S3$, VRM 등.
- supervised ranking : 더 나은 가설문에 높은 순위를 부여하는 scoring function으로 평가. COMET, BEER 등.
- text generation : 가설문의 평가를 사전학습 모델의 텍스트 생성 태스크로 간주. 좋은 가설문은 원문이나 참조문에 기반했을 때 혹은 그 반대의 경우에 쉽게 생성이 될 것이다. PRISM에서 선보였지만, PRISM은 paraphrase에 중점을 두었고, 병렬 데이터에 기반해 모델을 처음부터 학습시킨 반면, BARTScore는 프롬프트 기반의 학습이 가능하고, 오픈소스 기반 사전학습 seq2seq 모델을 차용한다.
해결 방안
- 사전학습 된 seq2seq 모델 (BART)을 사용, 생성된 텍스트를 참조 결과와 비교하도록 학습
- 텍스트 생성은 텍스트 생성으로 평가하겠다.
- 특징으로
- 파라미터/데이터 효율이 좋다
- 다양한 관점 (7개 - Informativeness, Relevance, Fluency, Coherence, Factuality, Semantic Coverage, Adequacy)에서 생성 텍스트를 평가할 수 있다.
- 텍스트 프롬프트 제공 및 파인 튜닝으로 추가적인 개선이 가능
- 프롬프트는 원문 x의 뒤에 붙이는 방법과 번역문 y 앞에 붙이는 방법이 있다.
- 파인 튜닝은 생성 태스크를 채택하여 평가 태스크와의 거리를 좁혔고, 이를 위해 요약과 paraphrase 데이터 셋을 채택했다.
- BARTScore는 로그 가중 확률합으로 표현됨. 이때 가중치는 모두 동일한 값.
- faithfulness (s->h) : 해당 원문에서 가설이 생성될 확률이 얼마나 되는가
- precision (r->h) : 가설문이 골드 참조문에 기반해 구성될 확률이 얼마나 되는가?
- recall (h->r) : 골드 참조문이 가설문에 기반해 구성될 확률이 얼마나 되는가?
- F score (r<->h) : precision과 recall의 산술 평균.
- BARTScore의 4가지 변형
- BARTScore : BART 기본 모델 사용
- BARTScore-CNN : BART를 CNNDM 요약 데이터셋에 파인튜닝
- BARTScore-CNN-Para : CNNDM에 파인튜닝하고, 다시 ParaBank2에 파인튜닝
- BARTScore-Prompt : 프롬프트로 개선
- 평가를 번역, 요약, data-to-text 태스크에 대해 각각 진행.
평가
- 왜 BARTScore이 다른 비지도 메트릭보다 나은가?
- Top-k systems : 번역만 대상으로 top-k system에 대해 모든 언어쌍의 평균 연관성을 분석했을 때, 다른 비지도 메트릭보다 결과가 좋았다. 또한 k가 줄어들수록 그 감소폭이 완만하다. 이는 BARTScore가 고품질 생성문에 강건함을 의미한다.
- Reference Length : 참조 길이를 구간별로 나누고 Kendall's Tau 평균 연관성을 도표에 나타났을 때 다른 비지도 메트릭을 뛰어넘었다. 이는 BARTScore가 다양한 입력문 길이에 강건함을 의미한다.
- 프롬프트를 추가하는 게 왜 평가에 도움이 되는가?
- 의미 겹침 (유익함, 피라미드 스코어, 연관성), 언어학적 퀄리티 (응집성, 유창함), 사실 여부 (factuality) 관점에서 성능 향상 여부를 보면, 의미 겹침에서는 프롬프트의 사용이 일관되게 상승했고, 사실 여부에서는 감소했으며, 언어학적 퀄리티는 예상하기 어렵다.
- BARTScore가 의도치 않은 편향을 가져올 것인가?
- 편향이란 사람이 평가한 점수와 비교했을 때 점수가 너무 높거나 낮은 경우를 의미한다. 따라서 사람이 평가한 순위 차이를 바탕으로 비교했으며, 결과적으로 extractive system보다는 abstractive system에 강했다.
- 잘한 점
- 생성문을 생성 모델로 평가한 점.
- 비지도 기반으로 모델을 학습한 점.
- 프롬프팅과 파인튜닝으로 추가적인 성능 향상을 이룬 점.
한계점
- 번역 : 지도학습 기반의 BLEURT나 COMET보다 그닥 뛰어나지 않다 (평균 점수로는 거의 차이가 없음)
- 요약 : 확실히 기존 지표보다 낫다는 느낌이 든다.
- D2T : 잘 모르겠음. 성능 향상이 드라마틱하지 않아서, 비지도 학습 모델이라는 점을 제외하고는 BLEURT나 COMET보다 확 뛰어나지 않다.
궁금증
- Extracttive systems vs abstractive systems
추출식 요약 : 입력문에서 전체 의미에 가장 연관성이 높은 표현을 선별하고 추출하는 방법. 새로운 문장을 생성하거나 내용을 재구성하지 않고, 원문을 그대로 가져다 요약에 사용하는 방법이다. 상대적으로 간단하고 연산량이 적지만 응집성이나 유창성에서 후자에 비해 조금 떨어진다.
추상식 요약 : 입력문을 이해하여 요약을 새로운 문장으로 생성해내는 방식. 다시 쓰기와 paraphrase가 적용된다. 더 깊은 의미론적 이해와 언어 모델링, 생성 능력이 요구되기에 더 복잡한 방식이다. 대신 결과물이 명료하고, 유창하며, 응집성이 높다.
- pearson correlation, spearman correlation, kendall's tau
피어슨 상관 계수 : 두 변수 x, y 간의 선형 상관 관계를 계량화한 수치로, -1과 1의 사이 값을 가진다. (증감이 중요)
스피어만 상관 계수 : 두 변수 x, y의 순위 사이의 통계적 의존성을 측정. 선형 관계가 아닌 단조적 (monotonic) 관계를 평가한다. (순서가 중요)
켄달타우 : 두 변수 x, y 간의 순위를 비교하여 연관성을 계산. 비교 대상의 상하관계가 같으면 concordant pair (C), 아니면 disconcordant pair (D)라고 하는데, 이 비율을 $C−DC+D$로 나타낸다.
https://blog.naver.com/gudrb1707/221230958541로 구현 예제 연습해볼 것.
- metrics 모델로 여러 데이터 셋에서 정확도를 도출하는 것이 어떤 의미가 있는가?
다양한 도메인의 데이터에 모델을 시험해보고, 특정 도메인에 치우치지 않았는지를 확인할 수 있고, 벤치마크 데이터셋으로 다른 메트릭과 성능을 비교해볼 수 있다. 특정 데이터셋은 특정 주제에 어느 정도 편향을 가지고 있을 수 있는데, 다양한 데이터셋에서 성능을 비교하면 그러한 편향을 발견해낼 수도 있다.
[기계 번역]
WMT19에서 원문과 기계 번역문, 그리고 참조문을 수집하고, DARR 코퍼스에서 7개 언어쌍을 사용함.
- DARR이 뭔가 해서 찾아보니, Direct Assessment (DA)는 2개어 병렬쌍을 모두 보는게 아니라 단일어만 평가하는 방식을 의미하고, RR이란 relative ranking, 즉 상대 랭킹을 의미한다. segment-level DA 평가는 보통 최소 15번의 평가를 바탕으로 판단하는데, 판단 결과가 부족하여 대신 도입한 방법으로 판단 결과의 상대 랭킹을 바탕으로 결과를 만든 것이다. 하나의 원문에 대해 둘 이상의 DA 점수가 있다면, 상대적으로 하나가 다른 하나보다 좋다고 판단할 수 있다. 이런 식으로 재해석한 DA를 DARR로 표기한다. 이때 낫다/못하다의 기준은 기존 DA 스케일 0-25-50-75-100에서 25점 이상 차이날 때이다. (Results of the WMT18 Metrics Shared Task: Both characters and embeddings achieve good performance)
[요약 태스크]
REALSumm : Re-evaluating evaluation in summarization. 메타-평가 데이터셋으로, 피라미드 리콜 방식 (시스템이 생성한 요약과 참조 요약의 내용이 어느 정도까지 일치하는지를 평가하는데, 이때 겹치는 정보가 있는 여러 다른 참조 요약을 함께 고려함)으로 시스템 생성 요약을 각각 평가.
SummEval : CNNDM 데이터셋에 대해 모델이 생성한 요약을 사람이 평가한 모음집으로, 전문가와 일반인 용역이 모두 평가에 참여함. 각 항목을 응집성, 일관성, 유창성, 연관성의 관점에서 평가함.
NeR18 : NEWSROOM 데이터셋의 60개 기사를 7가지 방식으로 요약 생성하고, 이를 응집성, 유창성, 유용성, 연관성의 관점에서 사람이 점수를 매김.
Rank19 : 사실성을 평가하기 위한 메타-평가 데이터셋. 원문을 각각 참과 거짓의 2개 요약문장과 함께 묶은 373개의 문장 triplet.
QAGS20 : BART의 파인튜닝 모델인 XSUM으로 추출한 CNNDM 데이터셋에 대한 235개 시험 출력문 + XSUM 데이터셋에 대한 239개 시험 출력문. 각 요약문은 사실성 점수가 함께 기록됨.
[data-to-text]
BAGEL : 레스토랑 정보 제공.
SFHOT : 샌 프란시스코의 호텔 정보 제공.
SFRES : 샌 프란시스코의 레스토랑 정보 제공.
- source text, hypothesis, reference text 간의 차이점
Source text : 번역해야 하는 원문. 번역 모델의 인풋.
Reference text : 골드 번역문. 보통 사람이 번역한 결과물을 칭함.
Hypothesis : 모델이 번역한 결과물. 보통 H와 R을 비교해서 그 연관성으로 점수를 매김.
- Meta-evaluation이 뭔데?
평가 연구의 방법론, 기준, 결과 자체를 판단하기 위한 과정.
'논문 읽기' 카테고리의 다른 글
| COMET: A Neural Framework for MT Evaluation (4) | 2024.02.29 |
|---|---|
| BLEURT: Learning Robust Metrics for Text Generation (2) | 2024.02.29 |
| Multiloop Incremental Bootstrapping for Low-Resource Machine Translation (2) | 2024.02.29 |
| Language models can explain neurons in language models (0) | 2024.02.23 |
| Aligning language models to follow instructions (0) | 2024.02.23 |