04_NLP(Natural Language Processing)자연어처리/LLM

전통적인 언어 지식 표현체계

jiniby 2025. 2. 3. 18:01
728x90

✅ 정보이론


☑️ 정보이론 기초
✔️ Why Information Theory?

딥러닝 기반 학습을 통해 예측 모형을 만드는 것
==
훈련 데이터를 바탕으로 새로운 데이터를 예측할 수 있는 확률 분포를 만드는 것
=> 따라서 예측 분포와 실제 정답의 분포 간의 정보량 차이 계산이 필요

 

정보 엔트로피, Information Entropy — 존스유

•정의: 데이터나 시그널에 존재하는 정보의 양을 측정하는 이론
=> 해당 확률분포의 특성을 알아내거나 확률분포 간 유사성을 정량화
•잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다는 것

1. 자주 발생하는 사건은 낮은 정보량
2. 덜 자주 발생하는 사건은 더 높은 정보량
3. 독립사건은 추가적인 정보량을 가짐
•예) 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량 > 동전을 던져 앞면이 한번 나오는 정보량

 

✔️ 정보량의 수치화

✔️ Shannon Entropy

무질서도를 수치화하는 척도 ! 

✔️ Entropy의 특징

• 머신 러닝 문제에서 Entropy를 계산할 때, log의 밑을 e로 사용하는 자연 로그를 많이 사용
• 엔트로피 H(X)는 확률 분포 P(X)의 불확실 정도를 측정할 때 사용
• 엔트로피는 확률 분포 P(X)가 constant 또는 uniform distribution일 때 최대화
• 엔트로피는 항상 양수

✔️ Cross Entropy

 loss fuction의 근간이됨 
두 확률분포 사이의  차이를 측정
실제데이터 분포 P vs 모델이 추정한 분포 Q 
•실제 데이터 P(X) 분포를 기준으로 미지의 Q(X) 분포에 대해 계산한 엔트로피
=> 정답 셋의 확률분포 P와, 모델 추론 결과의 확률분포 Q의 차이를 최소화하는 것
:: AI 모델의 학습 목표
• Cross Entropy 손실 함수 : 추정 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수
•분류 문제에서는 로지스틱 함수로 출력결과가 표현 / 데이터의 라벨은 one-hot encoding로 표현
• Softmax 함수와 데이터의 확률분포 차이가 분류문제의 손실함수

 

✔️ KL Divergence (Kullback Leibler Divergence)

 

✅ One-hot Encoding


☑️ One-hot 개념

✔️ One-hot Encoding

•컴퓨터가 이해할 수 있도록 단어들을 벡터의 차원으로 매핑하는 작업으로, 표현하고 싶은 단어의 인덱스에 1을 부여하고, 이외의 인덱스에 0을 부여하여 단어를 벡터로 표현하는 방식

•과거 word representation 방법은 one-hot (or one-of-N) encoding 방식을 주로 사용해왔음

 

✔️ One-hot encoding은 단어들 간의 관계성을 고려하여 표현하지 않음

• Ex) Cat : Id3, dog : Id2 => animal

✔️ One-hot representation은 매우 높은 dimension을 가지는 문제점이 있음

• Memory expensive

• Sparse

 

✅ 통계적 언어 모델

 

☑️ 통계적 언어모델이란?

 

✔️ 통계적 언어 모델 (SLM: Statistical Language Model)

•언어 모델은 연속된 단어(token)의 시퀀스에 확률을 할당하는 모델
•단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델
•모델의 목표는 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는 것

Evaluation Metrics for Language Modeling

✔️ 이전 시퀀스에 대한 조건부 확률에 기반

•이전 단어의 등장에 대한 이후 단어의 조건부 확률을 기반으로 다음 단어를 예측할 수 있는 확률 모델의 개발

Building Language Models in NLP - Analytics Vidhya

☑️ 카운트 기반 접근 

✔️ 조건부 확률 (Conditional Probability)

✔️ 조건부 확률의 연쇄 법칙 (Chain Rule)

✔️ 문장에 대한 확률로 확장

✔️ 카운트 기반 접근의 한계

• 학습 코퍼스에 An adorable little boy is라는 단어 시퀀스가 없었다면 이 단어 시퀀스에 대한 확률은 0
• 이와 같이 충분한 데이터를 관측하지 못하여 언어를 정확히 모델링하지 못하는 ‘희소 문제(sparsity problem)’ 가 발생

 

☑️ N-gram 언어모델

가장 전통적인 통계적 자연어 처리 방식인 N-gram Language Models에 대한 이론적 설명

✔️ N-gram이란?
• N-gram은 n개의 연속적인 단어 나열을 의미

•다음에 나올 단어의 예측은 오직 n-1개의 단어에만 의존

=> n-1번째까지 발생한 각 토큰의 조건부 확률의 곱으로 문장 혹은 단어의 흐름을 구성

✔️ N-gram에서의 마르코프 가정

문제를 전체를 보지말고 직전만 보자 !!!(계산의 복잡성을 줄여줌) 

✔️  Trade-off 문제

•앞에서 몇 개의 단어를 볼지 n을 정하는 것은 trade-off가 존재
•임의의 개수인 n을 1보다는 2로 선택하는 것은 거의 대부분의 경우에서 언어 모델의 성능을 높일 수 있음
• n을 크게 선택하면?
=> 실제 학습 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어짐
=> 희소 문제
=> 모델 사이즈의 증대

• n을 작게 선택하면?
=> 희소문제는 완화할 수 있지만 정확도가 떨어짐

728x90