언어 전공자의 NLP 로그
BooookScore: A Systematic Exploration of Book-length Summarization in the era of LLMs 본문
논문 읽기
BooookScore: A Systematic Exploration of Book-length Summarization in the era of LLMs
JohnnyNLP 2024. 3. 1. 00:32논문 출처 : https://arxiv.org/abs/2310.00785
BooookScore: A systematic exploration of book-length summarization in the era of LLMs
Summarizing book-length documents (>100K tokens) that exceed the context window size of large language models (LLMs) requires first breaking the input document into smaller chunks and then prompting an LLM to merge, update, and compress chunk-level summari
arxiv.org
문제 의식 & 방법론
- 컨텍스트 윈도우를 넘어서는 책 정도 길이의 문서를 요약하기 위해 LLM에서는 먼저 문서를 작은 청크로 나누고, 이를 merge, update, compress하는 과정을 거쳐 요약문을 생성한다.
- 기존 평가 방식은 LLM 요약으로 생성한 글의 에러를 포착하지 못하는데, 본 논문에서는 이를 (1) hierarchically merging chunk-level summaries, (2) incrementally updating a running summary의 방법론으로 해결한다.
- 최근 간행된 100개의 책을 LLM으로 요약하고, 여기에 1193개의 주를 달아 LLM이 생성한 요약문에서 8 종류의 응집성 오류를 발견했다.
- BOOOKSCORE는 요약문에 이 8 종류의 에러가 발생했는지의 비중을 살피는 자동화 메트릭이다. -> 비용/시간 절감
- 평가 시 3가지 open challenges
- 데이터 오염 : BookSum 데이터가 일부 LLM 학습 데이터로 활용됨.
- 아직 탐색되지 않은 에러 분포 : 주로 요약 과제가 짧은 문서 요약을 중심으로 이루어짐.
- 믿을만한 자동화 메트릭의 부재 : 사람이 단 주석에 대한 검증과 면밀한 디자인이 필요
- Contribution
- 책 분량의 요약문 응집성을 평가하는 프로토콜 : 데이터 오염을 방지하기 위해 새로 출간된 책을 활용, 골드 레퍼런스를 찾기보다 LLM 생성 요약문의 응집성에 대해 사람이 주석을 단 내용을 활용하는 프로토콜을 제안함. (예. 논리적 연결성) 100권의 최근 출간 책을 엄선하여 GPT-4가 요약한 내용에 1193개의 스팬 단위 주석을 수집, 8개의 빈번한 오류 유형을 분류해 GPT-4 요약문의 에러 분포를 밝혀냄.
- 요약 응집성을 판단하기 위한 자동화 메트릭 : 비용 절감. 골드 레퍼런스에 의존하지 않기 때문에 어떤 책을 요약하든, 새로운 모델을 쓰든 쉽게 평가할 수 있다.
- BOOOKSCORE를 활용해 다양한 LLM을 체계적으로 평가 : 프롬프팅 전략 선택, 베이스 LLM, 청크 사이즈 등 생성된 요약의 응집성을 결정하는 치명적인 설계적 결정들에 대해서 그 영향력을 평가함. (1) hierarchical merging로 incremental updating보다 응집성 높고 디테일은 적은 결과, (2) GPT-4와 Claude-2가 가장 응집성이 높았고, LLaMA 2는 품질도 낮고 인스트럭션도 못따라감, (3) 청크 사이즈를 높인다고 hierarchical merging이 나아지진 않지만, Claude 2에 incremental updating할 때는 유의미한 향상, (4) 요약문 정도에서 선호도를 판단하는 것은 주관적이며, BOOOKSCORE와는 관련이 없다.
방법론
- Hiearchical merging : 각 청크를 먼저 요약하고, 해당하는 요약문끼리 병합. (1) 청크를 요약하고, (2) 두 청크 서머리를 병합하고, (3) 이전 생성된 병합 서머리에서 추가된 컨텍스트를 또 다른 청크 서머리에 활용하는 세 종류의 프롬프트가 필요.
- Incremental updating : 매 스텝마다 글로벌 서머리를 업데이트하고, 길이가 일정 부분 길어지면 압축하는 과정을 반복. HM은 뒤로 갈수록 앞 내용에 대한 컨텍스트가 없이 요약되기 때문에 특히 비선형 혹은 다시점 내러티브에 대해 응집성이 떨어질 수 있다. (예전 LSTM을 떠올리면 될 듯) 이 방법은 모든 청크를 순서대로 순회하면서 글로벌 서머리를 요약하기 때문에 청크간 의존성은 잘 보지만, (1) 청크를 요약하고, (2) 글로벌 서머리를 업데이트하고, (3) 최대 요약 길이를 넘어설 경우 이를 압축하는, 조금 더 복잡한 프롬프트 필요.

- 프레임워크
- LLM Memorization을 막기 위해 100권의 최근 책을 큐레이션함. 일부는 사전학습 데이터셋에 있기도 했지만, 요약 데이터는 아마 없을 것. 총 190K 토큰으로, BookSum (112K)보다 많음. 근데 저작권 때문에 데이터셋 공개는 힘듬. 하고 싶으면 너네가 수집해서 해라!
- 평가 방법 : 골드가 없으니까, reference-free로 한다. 기존 연구의 (1) fine-grained evaluation units, (2) information-seeking questions ~~, (3) summary coherence에 집중. 즉, faithfulness를 직접 측정하지는 않음.
- Annotation protocol : source-free, reference-free로 (1) 먼저 LLM 생성 요약을 읽고, (2) 헷갈리는 부분 (confusing span)을 하이라이트하고, (3) 혼란이 발생하는 부분의 스팬에 대해서 질문을 던짐. 그 결과 HM은 353개 에러, IU는 840개 에러 표시.
- 주석 검증 : GT가 없기 때문에 recall 측정이 어렵고, fiune-grained 레벨에서는 주석자간에도 recall이 낮다는 것을 발견. 대신 precision으로 측정해보자. 1) 스팬이 헷깔린다고 생각하는지, 2) 해당하는 질문이 주요 혼란점을 하이라이트하는지. 네 사람이 자기가 주석을 매기지 않은 영역에서 25개 책에 대해 검증하는 방식으로 1659개 주석을 검증함. 그 중 79.7%가 적합하다고 판단.
- 응집성 오류 분류 : entity omission, event omission, causal omission, discontinuity, salience, language, incosistency 8개 에러 타입. SNaC 영향을 줄이기 위해 최대한 덜 참고했다고 함.
실험 / 평가
$BOOOKSCORE(S)=1n∑si∈S[LLM(E,S,si)==No confusion]$
- E : 퓨샷 에러 식별 프롬프트
- S : 풀 서머리
- $si$ : 타겟 문장
- 각 문장을 혼란을 유발할 수 있는 단일 유닛으로 취급한 이유? 질문 개수를 기준으로 삼으면 동일 문장에 대해 여러 질문을 던져야 하는 상황이 빈번히 발생하기 때문에 스코어는 에러가 없는 문장의 비율을 계산한다. 시스템 단위 평가는 모든 생성 요약의 BOOOKSCORE를 평균내어 판단.
- 검증은 human annotation을 검증한 것과 마찬가지로 사람이 LLM 생성 요약문을 판단하도록 함.
- 에러의 분포를 보니, GPT-4는 omission error에 더 민감하고, duplication이나 language error에는 둔감하다.
실험 결과
- 결과적으로, IU 방식이 항상 동모델 HM보다 응집성이 떨어졌다 -> 아마도 프롬프트가 더 복잡해서일 것이다. (특히 요약이 쌓였을 때 무엇을 포함시키고 무엇을 제거할지 결정하는 과정)
- chunk size가 커지면 IU가 득을 본다 -> 업데이트와 압축을 덜해도 되기 때문. HM은 영향을 덜 받기 때문에, context가 작은 모델이라면 HM이 유리.
- LLaMA 2는 굉장히 헤매는 모습. 반복률도 높고, IU에서도 압축을 아예 못한다.
- 응집성이 높다고 사람이 보기에도 좋진 않다 -> 83%가 IU 요약을 선호함. 단, 구조 (59% vs 35%), 논리적 일관성 (53% vs 38%), 전반 평가 (54% vs 44%)에서는 HM이 앞섰다. IU에 더 많은 디테일이 들어 있었기 때문에 응집성이 조금 떨어져도 좋다고 판단한 것. 양 방향 모두 이점이 있으니, 골라서 쓰세요.
- 질적 분석 : 'Oz's A History of Burning'이라는 책에서 GPT-4와 ChatGPT는 반복되고 애매한 문장을 사용했는데, 88K의 Claude 2에서는 앞부분을 날리고 뒷부분에 치중하는 모습을 보임. 모든 시스템이 faithfulness에서 부족한 모습을 보였다.
잘한 점 / 한계점
잘한점
- LLM의 생성 결과가 충분히 좋으니까 gold reference가 필요하지 않은 지경에 이르렀다! 기준을 heuristic하게 잡았지만 그 평가는 automatic하게 했다는 게 참신하다. 이러한 방법론은 번역에도 충분히 적용이 가능할 듯. 예컨대, 기계번역에서 빈번하게 발생하는 에러를 정의하고, 이걸 가지고 메트릭을 만드는 거지.
한계
- 에러 분류의 기준이 GPT-4이다 -> SOTA LLM을 기준으로 만들고, 사람의 평가 비용을 줄이는 게 우리 논문의 의도기 때문 (논문 기술)
- BOOOOKSCORE 자체가 돈이 많이 든다 -> GPT-4로 요약문을 반복 생성해야 하기 때문.
'논문 읽기' 카테고리의 다른 글
| Large Language Models are not fair Evaluators (3) | 2024.03.01 |
|---|---|
| GPTScore: Evaluate as You Desire (0) | 2024.03.01 |
| COMET: A Neural Framework for MT Evaluation (4) | 2024.02.29 |
| BLEURT: Learning Robust Metrics for Text Generation (2) | 2024.02.29 |
| BARTScore: Evaluating Generated Text as Text Generation (2) | 2024.02.29 |