Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

언어 전공자의 NLP 로그

StoryTrans : Non-Parallel Story Author-Style transfer with Discourse Representations and Content Enhancing 본문

논문 읽기

StoryTrans : Non-Parallel Story Author-Style transfer with Discourse Representations and Content Enhancing

JohnnyNLP 2024. 2. 23. 14:34

논문 출처 : https://arxiv.org/abs/2208.13423

 

StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse Representations and Content Enhancing

Non-parallel text style transfer is an important task in natural language generation. However, previous studies concentrate on the token or sentence level, such as sentence sentiment and formality transfer, but neglect long style transfer at the discourse

arxiv.org

 

0. Abstract

  • NLG 부문에서 non-parallel text style transfer는 중요한 과제 중 하나.
  • 단 선행 연구에서의 중점은 토큰, 문장 레벨에서 문장의 감정이나 격식체를 이전하는 방향이었다.
  • 본문의 과제는 입력 이야기의 구문을 유지하면서 특정 작가의 문체를 이전하는 방법이다.
  • StoryTrans는 담화 표상 (discourse representations)을 활용, 원천 내용의 정보를 포착하고, 이를 학습 가능한 문체 임베딩 (learnable style embedding)을 가진 목표 문체의 글로 바꾼다.
  • 또한 학습 목표로 학습된 담화 표현으로부터 문체 특징을 분리 (disentangle)할 수 있도록 하여 단순히 원문 복제 (auto-encoder)로 전락하는 상황을 방지한다.

1. Introduction

  • 평행 코퍼스의 부재로 최근 연구는 자가 재구성에 기반한 비지도 이전 방식에 치중
  • 토큰 단위 은닉 표상에서 문체 특징을 내재적으로 줄이거나, 인풋 자체로부터 문체 토큰을 명시적으로 제거하는 방식은 단일 문장의 감정이나 격식체를 이전하는 데 놀라운 성과를 이뤘지만, 어휘, 구문, 담화 수준의 이야기를 이전하는 방식은 논의되지 않았다.
  • 이야기를 특정 작가의 문체로 재생성하기 위한 첫 번째 어려움은 서술 기법 등 담화 수준에서 저자의 어휘 선정을 모방하는 것이다.
  • 둘째로, 작가의 문체는 특정 작문 주제와 연관성이 높다는 점이 있다.
  • StoryTrans는 입력문에서 담화 표상을 학습하고, 이를 문체 임베딩에 합쳐 (모듈식) 원하는 문체의 텍스트를 생성한다. 이에 더불어 잠재 공간에서 가까운 다른 텍스트로부터 표상을 가져올 수 있도록 새로운 학습 목표를 제안한다.
  • 이에 따라 생성 과정은 1) 입력 문장을 문체 관련 단어가 마스킹된 형태로 바꾸고, 2) 이 키워드를 명시적으로 복원하는 방식으로 텍스트를 생성한다.

2. Related Work

  • 문체 이전 : 인접한 담화 표상에서 명시적으로 분리 작업 수행 후, 분리 오차 계산 및 퓨전 모듈 고안
  • 고차원 표상 : 문장/문단의 마스킹된 부분을 재구성하여 수직적 임베딩 표상을 학습. 이를 위해 문장 순서 예측 과제를 채택
  • 장문 생성 : 마스킹을 채우는 방식으로 문체 이전과 동시에 내용 보존

3. Methology

  1. 입력 x로부터 문체 키워드 k를 식별하고 마스킹. 이를 $xm$으로 구분
  2. 마스킹된 토큰을 k에 조건부로 하여 문체와 관계 없이 완성시킴
  • 1단계의 오차는 $L1=Lself+λ1Ldis+λ2Lsop+λ3Lstyle$로 다소 복잡한데, L_self는 자가 재구성 오차, L_dis는 분리 오차, L_sop는 시퀀스 순서 예측 오차, L_style은 문체 분류 오차를 의미한다.
  • 2단계에서는 denoising auto-encoder (DAE) 오차를 채택하여, x를 재구성하기 위한 또다른 인코더-디코더 모델을 학습한다. 이때 $L2=−∑t=1TlogP(Xt|x<t,{ki}i=1l,xm)$. 이는 문체와 관련 없이 진행되며, 내용 보존에 도움을 준다.
  • 이후 담화 표상 구성, 퓨전 모듈 생성, 포인터 네트워크 지정
  • 저자는 L_self와 L_dis의 관계를 들어, 이 둘이 적대적 관계를 띄며, 내용 보존과 문체 이전 사이의 균형을 향해 나아간다고 한다. 이는 한계점에서도 드러나는데, 문체 이전에 강세를 둘수록 본문의 내용은 더 많이 잃어버리게 된다.

5. Conclusion

  • 최초의 이야기 문체 이전 연구. 새로운 생성 모델 제안 -> 고차원 표상으로부터 문체 정보를 명시적으로 분리하고, 본문 내용을 더욱 잘 보존한다.

6. Limitations

  • 내용 보존과 문체 이전 사이의 적대 관계.. 이 둘의 균형을 어떻게 잡을 것인가?
  • 마크 트웨인의 문체는 셰익스피어처럼 두드러지지 않는다? 명확히 특색이 드러나는 작가만 적용이 가능.