목록전체 글 (62)
언어 전공자의 NLP 로그
'Rich Character-level information for Korean morphological analysis and part-of-speech tagging' 논문 출처 : https://aclanthology.org/C18-1210/ Rich Character-Level Information for Korean Morphological Analysis and Part-of-Speech Tagging Andrew Matteson, Chanhee Lee, Youngbum Kim, Heuiseok Lim. Proceedings of the 27th International Conference on Computational Linguistics. 2018. aclanthology.org 한국어는 ..
논문 출처 : https://arxiv.org/abs/1801.07243 Personalizing Dialogue Agents: I have a dog, do you have pets too? Chit-chat models are known to have several problems: they lack specificity, do not display a consistent personality and are often not very captivating. In this work we present the task of making chit-chat more engaging by conditioning on profile informatio arxiv.org 잡담용 챗봇에 사용되는 LLM은 다양한 소..
논문 출처 : https://arxiv.org/abs/1808.06226 SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing This paper describes SentencePiece, a language-independent subword tokenizer and detokenizer designed for Neural-based text processing, including Neural Machine Translation. It provides open-source C++ and Python implementations for subword units...
논문 출처 : https://aclanthology.org/P02-1040/ Bleu: a Method for Automatic Evaluation of Machine Translation Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002. aclanthology.org 본 논문은 2002년 7월에 게재된 논문으로, 여기서 제기된 BLEU는 아직까지도 여러 언어 모델의 성능 지표로 사용되고 있다. Bilangual evaluation understudy의 약자인 BLEU는 본래 기계 번역..
https://www.youtube.com/watch?v=Jt5BS71uVfI&ab_channel=MinsukHeo%ED%97%88%EB%AF%BC%EC%84%9D https://www.youtube.com/watch?v=7GBXCD-B6fo&ab_channel=MinsukHeo%ED%97%88%EB%AF%BC%EC%84%9D 크로스 엔트로피 틀릴 수 있는 정보로 구한 엔트로피. 모델의 추론 결과가 대표적으로 틀릴 수 있는 정보이다. Softmax로 분류한 값을 Q, 실제 확률 값을 P라고 하자. $$ H(P, Q) = \sum_{i=1}^n log_2 {1\over q_i }* p_i $$ 예측값과 실제값이 완전히 다르다면 값은 무한으로 수렴하고, 근사할수록 작은 값, 일치할수록 0에 가까워진다. Cr..
https://www.youtube.com/watch?v=9M9Sd4SVFqI&ab_channel=%EA%B3%B5%EB%8C%80%ED%98%95%EC%95%84 MLE 데이터가 주어졌을 때, 어떠한 확률 θ에서 해당 데이터가 등장할 확률이 가장 높은지 추정하는 방법. θ^=argmax _θ P(D|θ) MAP 위와 반대로, P(θ|D)를 구하고 싶다면? 즉, 특정 데이터가 주어졌을 때, 어떠한 확률 θ이 가장 큰 지를 보는 것. P(θ|D)=P(D|θ)P(θ) / P(D), 다시 말해 Posterior=Likelihood X Prior Knowledge / Normalizing Constant 위 식은 베이즈 정리를 통해서 구한 식으로 쉽게 유추가 가능하다. θ : 실제 우리가 예측하고 싶은 대상 혹..
https://www.acmicpc.net/problem/11003 11003번: 최솟값 찾기 N개의 수 A1, A2, ..., AN과 L이 주어진다. Di = Ai-L+1 ~ Ai 중의 최솟값이라고 할 때, D에 저장된 수를 출력하는 프로그램을 작성하시오. 이때, i ≤ 0 인 Ai는 무시하고 D를 구해야 한다. www.acmicpc.net from collections import deque n, l = map(int, input().split()) A = list(map(int, input().split())) check_list = deque() for i in range(n): # 작은 수가 들어올 경우 pop while check_list and check_list[-1][1] > A[i]: ..

결전의 순간이 왔습니다. KoBERT 학습 모델과 GPT-4의 성능을 비교해보겠습니다. 테스트용 데이터셋은 GPT-3.5로 특정 감정을 직접 드러내지 않고 감정을 표현하도록 셋팅하여 생성한 문장들입니다. ex) 휴가지에서의 첫 경험, 얼마나 특별할까? (기대) 이 작품에 모든 것을 담았어. (열정) 계속해서 눈물이 나. (우울) 이런 일은 다신 겪고 싶지 않아. (불쾌) GPT-3.5 생성 문장이기 때문에 3.5로 시험했을 때에는 거의 100%에 가까운 적중률이 나타나 시험에서 제외했습니다. 순서는 섞지 않고 라벨 순서대로 (0~7) 배치했으며, 각 라벨 당 25개의 문장이 들어가게 됩니다. 서순은 기대, 기쁨, 애정, 열정, 분노, 슬픔, 우울, 불쾌 순입니다. 1. KoBERT 모델이 예측한 결과값 ..