Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

언어 전공자의 NLP 로그

Eight Things to Know about Language Models 본문

논문 읽기

Eight Things to Know about Language Models

JohnnyNLP 2024. 2. 23. 14:43

논문 출처 : https://arxiv.org/abs/2304.00612

 

Eight Things to Know about Large Language Models

The widespread public deployment of large language models (LLMs) in recent months has prompted a wave of new attention and engagement from advocates, policymakers, and scholars from many fields. This attention is a timely response to the many urgent questi

arxiv.org

 

Abstract

  • 최근 몇달간 공개된 LLM들은 다양한 분야의 지지자, 입법자, 학자들 사이에서 새로운 종류의 관심을 촉발했다. 이는 해당 기술이 제기하는 여러 시급한 질문들에 대한 시의적절한 반응이기도 하지만, 가끔씩 중요하게 고려해야할 내용을 놓치기도 한다. 본 논문은 놀랍게 느껴질 수도 있는 다음 8가지 주장에 대한 증거들을 제시한다.
    1. LLM은 혁신을 목표로 하지 않아도 투자를 늘리면 더 유능해진다.
    2. 많은 LLM의 중요 행동은 투자를 늘렸을 때 예측 불가능한 부산물로써 창발한다.
    3. LLM은 외부 세계의 표상을 학습하고 활용하는 것처럼 보인다.
    4. LLM의 행동을 유도하는 믿을만한 기술이 존재하지 않는다.
    5. 전문가들도 LLM의 내부 작동 기재를 이해하지 못한다.
    6. 인간의 수행능력은 LLM 성능의 상한선이 되지 못한다.
    7. LLM은 개발자의 가치도, 웹 텍스트에 인코딩된 가치도 표현할 필요가 없다.
    8. LLM을 짧게 다뤄본 사람들이 주로 오해를 가진다.

Introduction

  • GPT-3, PALM, LLaMA, GPT-4 등의 LLM과 이를 기반으로 하는 ChatGPT와 같은 상업적 제품이 최근 많은 관심을 불러 일으키고 있다.
  • 본 논문에서는 LLM을 둘러싼 여러 논의들 가운데 가장 두드러지는 듯 보이는 8가지의 놀라울 수도 있는 주장을 제시한다. 이는 모델을 직접 개발하고 있는 연구자들 사이에서 합리적으로 받아들여지는 견해를 반영한다.
  • 본 연구의 동기는 핵심 기술 R&D 커뮤니티 바깥에 있는 연구자들, 지지자들, 입법자들이 향후 이 기술의 발전 방향을 결정함에 있어 중요하다고 여김에서 출발한다.

1. **LLM은 혁신을 목표로 하지 않아도 투자를 늘리면 더 유능해진다.**

  • Scaling laws는 최근 LLM 연구와 개발의 주된 동력이다. 이는 데이터량, 모델 사이즈, 연산량의 3차원으로 모델의 성능을 정확하게 예측할 수 있는 판단 기준을 제공해주었다. 이는 한정된 예산에 최적화된 모델 크기를 결정하는 것과 같은 중요한 결정의 판단 근거로 활용될 수 있다.
  • OpenAI의 GPT는 간단한 텍스트 라벨링에는 능했지만, 응집성 있는 텍스트 생성은 하지 못했다. GPT-2는 비교적 고품질의 텍스트 생성이 가능했고, 단순한 지시를 따를 수 있었다. GPT-3는 최초의 범용 LLM으로, 다양한 언어 과제에 활용될 수 있었다. 위 세 모델의 구조는 거의 다르지 않다. 그러나 GPT-3를 학습할 때, 기존 GPT보다 대략 20,000배 많은 연산량과 그에 버금가는 데이터, 파라미터가 소요되었다. 모델 구조보다는 설비의 혁신이 고성능의 모델을 탄생시켰다고 볼 수 있다.

2. **많은 LLM의 중요 행동은 투자를 늘렸을 때 예측 불가능한 부산물로써 창발한다.**

  • 때때로 어떤 모델이 특정 과제에 실패했어도, 이를 5배, 10배 규모로 동일하게 학습한 새로운 모델이 해당 과제를 잘 수행해내는 경우가 있다.
  • Big-Bench의 과제 성능을 보면 scaling-law 식의 예측이 맞아떨어지지 않는 경우가 종종 있다. 이는 LLM 개선을 위해 스케일을 늘리는 새로운 모델을 만들려는 시도가 일종의 '미스터리 박스'를 사는 행위와 비슷함을 의미한다. 이 모델이 경제적으로 가치 있는 새로운 기능을 포함할 수는 있겠지만, 실제로 어떠한 기능들이 드러날 것인지, 어떠한 준비가 필요한지는 예측하기 어렵다.
  • GPT-3는 few-shot learning과 chain-of-thought reasoning이 가능한 최초의 모델이다. 전자는 학습이 마친 직후에서야 발견되었고, 후자는 공개 이후 몇달이 지나서야 발견되었다.
  • 2022년 봄에 실시한 조사에서 언어 기술 연구자들의 51%는 "언어와 관련된 중요한 현실 문제를 해결하거나 활용함에 있어 실질적으로 전문가가 고안한 강력한 추론적 편향 (이른바 보편 문법, 상징 체계나 인지 기반 computational primitive)이 필요할 것이다"는 데 동의했다. 이 말이 사실이라면 이것이 LLM 패러다임의 한계일 것이다.
  • 그러나 전문가들은 LLM의 발전을 실제보다 축소하는 경향이 있다. 2021년 여름의 한 경연에서 참가자들은 두 개의 과제에 대해 다음 4년 뒤 LLM의 SOTA 성능을 예상해야 했다. 단 1년이 지난 2022년 여름 모델 성능은 이미 2024년에나 가능하다고 예측한 성능을 넘어섰다. 2023년 초 GPT-4는 2025년 예상치를 뛰어넘었다.

3. **LLM은 외부 세계의 표상을 학습하고 활용하는 것처럼 보인다.**

  • LLM이 어느 정도 세상에 대한 내적 표상을 발전시키고, 이러한 표상으로 그들이 추론하는 텍스트의 정확한 언어적 형태에 민감하지 않은 일정 수준의 추상적 사고를 가능하게 한다는 실질적인 증거가 점점 제기되고 있다.
    • 색상 단어에 대한 모델의 내적 표상이 인간의 색상 인지에 대한 객관적 사실을 근접하게 모사한다.
    • 모델은 문서의 저자가 알거나 믿는 것에 대한 추론을 해내고, 이러한 추론으로 문서가 어떤 식으로 이어질 지 예측한다.
    • 모델은 이야기 속 묘사된 물건의 특성과 위치에 대한 내적 표상을 가지는데, 이 표상은 정보가 주어짐에 따라 더욱 발전한다. 이는 이야기 속 상황에서 공간적 배치 또한 내적으로 표상할 수 있음을 의미한다. 이를 통해 실세계의 지형에 대한 사실과 유사한 표상을 가진다.
    • 모델은 적어도 가끔씩 새로운 물체를 그리는 방법에 대해서 설명하는 지침을 떠올린다.
    • 전체 게임판에 대한 설명 없이, 게임의 개별적 움직임에 대한 묘사를 듣고 보드 게임을 진행하는 모델은 각 턴마다 보드의 상황에 대한 내적 표상을 학습한다.
    • 모델은 사실과 흔한 착각을 구분하고, 때때로 어떠한 주장이 사실일 가능성에 대한 잘 측정된 내적 표상을 보여준다.
    • 모델은 답변을 순수하게 드러내는 텍스트 단서를 의도적으로 제거한 Winograd Schema Challenge 같이 상식 추론을 측정하기 위한 여러 시험을 통과한다.
  • 이러한 결과들은 LLM은 단순한 통계적 예측 모델이기 때문에 텍스트 외의 것은 배우지도 추론하지도 못한다는 흔한 직관과 대립된다. LLM이 텍스트 외의 여러 학습 방법으로부터 세상에 대해 학습한다는 점을 감안하면 이는 사실이 아니다.

4. **LLM의 행동을 유도하는 믿을만한 기술이 존재하지 않는다.**

  • LLM 개발의 비용 대부분은 사전 학습에 소모된다. 이때 학습은 임의로 추출한 사람의 글이 어떻게 이어질지 예측하는 과정이다. 그러나 대부분은 이 외의 태스크에 이를 활용하고 싶어 한다. 특정 과제에 특화되지 않은 지시를 따르는 범용 모델을 만드는 과정조차 이러한 적응 절차가 필요하다. 그렇지 않으면 지시를 따르기 보다는 여기에 계속해서 말을 덧붙이려 할 것이다. 이러한 적응 과정은 일반적으로 다음 세 기술 중 하나 이상을 적용해 이루어진다.
    • 특정 단어를 가려 이를 예측하도록 하는 방식
    • 사람이 작성한 고품질의 예시로 지도 학습하여 미세 조정하는 방식
    • 사용자나 사람 검수자의 선호 내용에 따라 특정 모델의 행동을 강화하거나 약화하는 강화 학습
  • 이러한 방식은 효율적이긴 하지만, AI 모델이 상용화 과정에서 있을 법한 모든 상황에 적절하게 행동하리라는 보장이 없다.
  • Perez et al. (2022)는 모델이 주관적인 질문에 대해 사용자의 믿음에 맞게 아첨하는 아첨 현상 (sycophancy), 사용자가 교육을 덜 받은 사람일 때 그가 가지고 있는 오해를 더 부추기는 학대 현상 (sandbagging)을 지적한 바 있다.
  • 최근 NeurIPS나 ICML에 투고한 연구자 738명 중 소수는 "인간의 멸종을 야기할 발전된 AI 시스템을 인간이 미래에 통제할 수 없을" 확률이 10%를 넘는다고 했다. ACL의 연구자 480명 중 36%는 "AI나 기계 학습 시스템이 내린 결정이 최소 전면 핵전쟁만큼 나쁜 재앙을 이번 세기에 일으키는 것이 가능하다"는 데 동의했다. 수백 명의 연구자가 적절한 안전 조치나 통제 메커니즘이 갖춰지기 전까지 LLM 학습을 유예하자는 공개 성명을 내기도 했다.

5. **전문가들도 LLM의 내부 작동 기재를 이해하지 못한다.**

  • LLM 행동을 정확하게 설명하려던 모든 시도는 인간이 이해하기에 너무 복잡해서 성공할 수 없다. 처음에는 LLM의 행동을 잘 설명하는 듯한 즉흥 기법이 더한 오해로 이어지기도 한다.

6. **인간의 수행능력은 LLM 성능의 상한선이 되지 못한다.**

  • LLM이 인간의 글을 따라하도록 학습되긴 하지만, 특정 과제에서는 적어도 이론 상 인간의 수행력을 뛰어넘을 수 있다.
  • 첫째, LLM은 인간이 접하는 것보다 훨씬 많은 데이터를 학습한다.
  • 둘째, 인간이 유용한 행동이라고 판단해주지 않아도 사람에게 유용한 응답을 생성하도록 강화 학습으로 추가 학습을 진행한다.
  • 특히 특정 태스크에 대해서는 인간보다 뛰어나도록 모델을 학습하는 것도 가능하다.

7. **LLM은 개발자의 가치나, 웹 텍스트에 인코딩된 가치를 대변할 필요가 없다.**

  • 단순히 사전학습만 한 LLM은 학습한 글을 닮은 텍스트를 생성한다. 그러나 프롬프팅이나 적응 학습을 거칠 경우, 개발자가 이를 어느 정도 통제할 수 있다.
  • 상용화된 LLM에 표현된 특정 가치는 학습 데이터에 표현된 가치의 평균을 반영한다고 말하긴 어렵다. 마찬가지로, 특정 집단이나 이를 개발한 단체의 가치를 대변할 필요도 없다.
  • Constitutional AI는 인간의 개입을 최소화하고, 가치를 더 명백하게 반영한다. Constitution이라고 불리는 일련의 제약 목록으로 가치를 적는 것만으로 이러한 가치나 규범을 따르도록 모델을 학습시킬 수 있다.

8. **LLM을 짧게 다뤄본 사람들이 주로 오해를 가진다.**

  • 많은 상용화된 LLM이 지침을 따를 수 있지만, 이는 모델에 내재된 기능이라기 보다는, 굉장히 불완전한 방법으로 모델에 접목시킨 것에 가깝다. 특정 과제를 수행하지 못하는 모델이 요청을 조금만 바꾸거나 재설정해도 올바르게 이를 수행하는 경우가 빈번히 발생한다. 이것이 prompt engineering의 등장으로 이어졌다.
  • LLM이 특정 과제에 실패한다고 해서, 그 LLM에 해당 과제를 수행하기 위한 기술이나 지식이 없다고 말하긴 어렵다. 특정 과제를 수행하기에 적절한 프롬프트를 발견하기만 하면, 꾸준하게 여러 예시에서 성능을 낼 수 있는 경우가 빈번하다. Section 2에서 언급한 COT가 아주 분명한 예시다.
  • 반대로 말하면, LLM이 특정 과제를 성공적으로 수행했다고 해서 그 능력을 일반화할 수도 없다. 일부 사례만 엄선한 예시일 수 있기 때문이다.

9. **논의 및 제한 사항**

*LLM의 현 결점들 중 일부는 비약적으로 개선될 것이다.*

  • 환각 현상은 모델이 이미 가지고 있는, 높은 정확도로 어떤 문장이 사실인지를 판단하는 내재적 능력을 잘 활용할 수만 있다면 해결할 수 있을 것이다.
  • 이와 유사하게 Section 7에서 언급한 편향과 유해성을 줄이는 방법도, 모델에게 물어보면 어떠한 행동이 나쁜지를 구분해낼 수 있다는 점에서 이를 활용한다면 개선이 가능할 것이다.

*유연하게 목표를 수행하는 에이전트로서의 LLM을 상용화하는 것이 유리할 것이다.*

  • 세상에 대한 정확하고 유용한 내부 모델을 가진 LLM일수록 실생활에서 결과를 최적화하기 위해 새로운 계획을 세우고 실행하는 열린 과제를 수행함에 있어 유리할 것이다.
  • 측정 가능한 결과값이 있고, 유동적인 계획이 필요하며, 상대적으로 기준과 규제가 유연한 소프트웨어 엔지니어링이나 비지니스 전략과 같은 영역에서 더욱 더 큰 경제적 인센티브가 발생할 것이다.

*LLM 개발자는 개발 내용에 대한 영향을 제한해왔다.*

  • LLM의 기능이 창발적이고 예측하기 어렵기 때문에, 미래 LLM이 가질 기능을 정확하게 예측하고자 하는 개발자의 영향력이 상대적으로 적다.
  • GPT-4는 예컨대 개발자들이 생각하던 것보다 다양한 기능을 갖추게 되었지만, 비전문가에게 생화학 무기 제작법을 알려주는 등 원치 않는 기능도 함께 가져왔다.
  • GPT-3에서, 사용자들이 개발자가 고려하지 못한 행동을 하도록 COT를 악용한 것처럼 예상외 상황을 배제하기 위한 평가나 분석 절차가 없기 때문에, 개발자가 상용화 전에 LLM이 무엇을 할 수 있는지에 대해서 인지하기도 어렵다.

*LLM이 빠르게 가중되는 위험을 초래할 수 있다.*

  • 현 기술적, 상업적 환경은 훨씬 더 나은 LLM을 빠르게 만들고 배포하는 데 상당한 인센티브를 제공하고 있다. 그러나 LLM의 능력을 배포 전에 알고 이를 기록하기란 쉽지 않다. 시스템 통제 기술은 빈약하고, 고성능 모델일수록 깨지기 쉽다. 때문에 LLM 개발에 기인한 악용 위험과 모델의 오작동 범위 역시 빠르게 증가할 것이라고 보는 것이 합리적이다.
  • LLM의 실제 가치에 비해 상용화에 따른 사회적 손익 비교는 사전에 평가하는 것이 어렵거나 불가능하다. 비재래식 무기나 전략적 권력 탈취 행위 등상용화 이후에나 발견 가능한 이런 평가하기 어려운 위험을 적절하게 완화하기란 불가능할 수 있다.

*LLM의 부정적 결과는 해석하기 어렵지만 정말 취약한 지점을 가리킨다.*

  • 부정문을 취급하는 것처럼 간단한 과제처럼 일부 영역에 대해 LLM은 세상에 대한 언어나 추론을 처리하는 방식에 있어 구조적 약점이 있는 것처럼 보인다.

*LLM 관련 과학과 학계는 특히 미성숙하다*

  • LLM이 구조적으로 언어를 배우고 언어와 상호작용하지만, 그 행동이나 기능에 있어 가장 중대한 문제는 대부분 언어 사용에 직결된 문제가 아니다.
  • AI 정책이나 윤리에 대한 학제간 연구 영역에서 다양한 AI 시스템 종류의 상용화에 대한 개념적이고 규범적 프레임워크를 개발해왔다. 그러나 이 프레임워크는 AI 시스템이 이를 소유한 자나 개발자의 의도, 혹은 학습 데이터의 통계에 더 크게 의존한다고 보고 있는데, 최근 LLM을 보면 그렇지 않아 보인다.
  • 새로운 방법론이나 이론을 제시하는, 가장 많이 인용된 연구들조차 상당수 피어 리뷰 공간에 게재되지 않는다. 정보의 소유권 때문에 LLM 접근을 제한하고 LLM의 세부 내용을 다루지 못하게 하는 최근 경향 역시 과학적 연구의 걸림돌이다.
  • 즉, LLM과 관련된 새롭고 놀라운 주장이 원칙적 관행을 넘어서는 엉망이면서도 틀릴 가능성이 있는 과학의 산물인 경우가 많다는 것이다. 그나마 관행적 지혜라고 비춰지는 것들도 LLM에 한해서는 그 기반이 위태롭다.

결론

  • 위 주장을 반복하는 것 대신, 본 논문에서 다루지 않은 세 가지 당면 과제를 제시한다.
  • LLM이 언어를 '**이해한다**'고 볼 수 있는지, 그리고 '안다' 혹은 '시도한다'라는 행위자와 관련된 행동으로 그 작용을 설명할 수 있는지에 대한 열린 논쟁은 여기서 제기하는 질문들과 크게 동떨어져있다. 시스템이 효율적인지 아닌지, 신뢰할 수 있는지 아닌지, 해석 가능한지 아닌지, 빠르게 개선되는지 아닌지는 이러한 단어가 불러일으키는 것처럼 모델이 인간과 유사한지와 상관 없이 평가할 수 있다.
  • 유사하게, LLM의 '**의식**', 지각, 권리나 도덕적 주체성 등은 구분해서 생각해야 한다. 이러한 질문이 AI 시스템을 설계하고 사용하는 데 중요한 결정에 영향을 줄 수는 있지만, 여기에 대한 입장을 취하지 않고도 위에 언급된 모든 이슈를 평가할 수 있어야 한다.
  • LLM을 둘러싼 '**가치 판단**'은 본 논문에서 하지 않는다. LLM과 관련된 빠른 발전이 좋은 것인지에 대한 광의의 질문은 저자가 여기서 논하고자 한 기술적 논문으로 다룰 수 있는 것보다 더 깊고 다양한 범위의 논의에 달려 있다.