04_NLP(Natural Language Processing)자연어처리/LLM

언어 모델이란 무엇인가 ?

jiniby 2025. 2. 3. 17:08
728x90

✅ 자연언어 (Natural Language)

☑️ 언어모델 (Language Model) = 지식 표현 체계

OpenNMT: Open Source Neural Machine Translation | 텐서 플로우 블로그 (Tensor ≈ Blog)

   ✔️ 인간의 언어 자연어를 컴퓨터가 이해할수 있는 지식표현체계로 표현해주는 것

☑️ 언어모델이란?

• 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델
• 단어 시퀀스에 확률을 할당(assign)
=> 언어모델은 가장 자연스러운 단어 시퀀스를 찾거나 문맥 정보를 이해하는 모델

[DL] 텍스트 데이터와 언어 모델(Language Model)

✅ 언어모델의  종류 및 특징

☑️ 언어모델의 시작은 LLM 일까?

☑️ 전통적인 언어모델

A Brief Timeline of NLP. A journey across grammars, expert… | by Fabio Chiusano | Generative AI | Medium

 

 ✔️ 규칙기반 언어모델

•언어의 문법적 규칙을 사전에 정의하고 이에 기반하여 자연어를 처리
•초창기에 사용한 연구방법
•어순이 정형화되어 있지 않은 경우 분석에 한계가 존재
•규칙의 사전 지정은 큰 부담. 작업의 정확도 또한 낮음 

✔️ 통계기반 언어모델

• 통계적 언어 모델은 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델

=> 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는 것

• 주어진 단어를 바탕으로 다음 단어로 올 확률이 가장 높은 단어를 예측하는 일련의 과정을 의미

=> 언어 현상에 조건부 확률 적용

통계적 언어모델의 흐름

 

☑️ 딥러닝 기반 언어모델

•퍼셉트론을 기반으로한 인공 신경망 설계를 통해 단어의 의미적 유사성을 학습할 수 있도록 설계
=> ‘문맥’을 반영. 기존의 희소성 문제를 완화
•학습 코퍼스에 없어도, 문맥을 참고하여 보다 정확한 예측
•피드 포워드 신경망 -> 순환 신경망 -> Transformer

 ✔️ 영향력

Transformer의 등장 이후로 NLP연구의 메인 트렌드
• Encoder만 사용하는 BERT family
• Decoder만 사용하는 GPT family
• Encoder-Decoder(Seq2Seq)구조를 가지는 BART family, Transformer-XL family 등

☑️ Encoder vs Decode

 ✔️ Encoder과 Decoder의 차이

자연어를 이해하는쪽 VS 자연어를 생성하는 쪽  

✔️ Encoder의 대표적인 모델

BERT (Bidirectional Encoder Representations from Transformers)
• Contextual Embedding

• Masked Language Modeling(MLM): 마스킹된 토큰을 예측
• Next Sentence Prediction(NSP): 문장이 다른 문장과 이어질 확률을 예측
RoBERTa (Robustly optimized BERT approach)
•더 긴 시퀀스, 많은 훈련 데이터로 더 큰 배치에서 오래 학습
• NSP 없이 Dynamic Masking 적용
=> 성능이 크게 향상

 

 ✔️ Encoder의 대표적인 모델

GPT (Generative Pre-trained Transformer)
• Auto-Regressive
•주어진 Input을 기반으로 다음에 올 토큰을 예측
=> 시퀀스의 한쪽만 참고
•추가적인 fine tuning 없이도 자체적으로 충분히 좋은 성능

=> Few-shot / Zero-shot의 등장

 ✔️ Sequence-to-Sequence의 대표적인 모델

✔️  BART (Bidirectional Auto-Regressive Transformer)

• Encoder와 Decoder를 모두 사용한 사전학습 모델
• Encoder에서 input을 입력 받아 표현형 벡터로 변환
=> Decoder에서 해당 벡터를 기반으로 다음 토큰을 생성
• 5가지 Denoising technique을 사용해 self-supervised learning으로 사전 학습

✔️ T5 (Text-to-Text Transfer Transformer)

• Text-to-text problem: input으로 text를 받아서, output으로 새로운 text를 생성하는 문제 
• 다양한 text processing problem
⇒ Text-to-text 문제로 변형

✔️ Pre-training T5

• Span 단위의 Masking(Replace corrupted spans)을 통해 원래 텍스트를 순차적으로 복구하는 것으로 pre-training
• Pre-training dataset과 unsupervised task로 변환된 downstream task들의 dataset을 섞어, 한번에 학습하는 Multi-task Pre-training을 사용함
 

✔️ Using T5 for Closed-book QA

• Fine-tuning T5: 미리 학습된 pre-trained T5를 활용
• MRC 데이터셋 (TriviaQA, WebQuestions, Natural Questions) 의 QA pair를 활용

 

 

✅ Task 관점에서 언어모델의 역할

☑️ NLP Task에서 언어모델 

[CS224n] Lecture 15 - Natural Language Generation

 

[CS224n] Lecture 15 - Natural Language Generation

작성자 : 투빅스 13기 김민정 > Contents Decoding Algorithm Neural Summarization Copy Mechanisms NLG Using Unpaired Corpus 1. Decoding Algorithm 시작하기 전에 NLG가 무

velog.io

✔️ NLU와 NLG의 정의

✔️ NLU Task

NLP, NLU, NLG의 간단한 이해

 

✔️ NLU Task

[CS224n] Lecture 15 - Natural Language Generation

✔️ NLU with NLG

✔️ 좋은 언어표상능력을 각각의 Task로 전이

☑️ LLM의 등장

✔️ From Language Model to Large Language Model

✔️ LLM 시대에서의 Task

•대부분의 기존 Task에서 LLM(Large Language Model)은 월등히 높은 성능을 달성
•기존의 일반적인 benchmark들은 LLM의 내재적 능력을 파악하기에는 부적합
=> 일반적으로 널리 쓰이던 benchmark로부터 탈피
=> 더욱 challenge, hard, human-like 한 Task와 Dataset이 필요

 

☑️ NLP Application

1. NLP: A Primer - Practical Natural Language Processing [Book]

더 도메인특화됨

 

✔️ 기계번역

✔️ Universal Speech Model

• "1,000개 언어 이니셔티브(1000개 언어를 지원하는 머신러닝 모델 만들기)"를 진행

• USM은 2B(20억)개의 파라미터로 300개가 넘는 언어, 1200만 시간의 음성, 280억개의 문장으로 훈련됨

•유튜브에서 자막 생성을 위해 사용

•영어/중국어뿐만 아니라, Amharic, Cebuano, Assamese, Azerbaijani 같은 언어까지 지원

✔️ Grammatical Error Correction

✔️ Meeting Summarization

✔️ Writing Assistant

✔️ 음성인식

✔️ AI Assistant

✔️ OpenAI Whisper

✔️ Text to Image Generation

✔️ Presentation Tools

✔️ Code Generation

✔️ 검색 엔진

✔️ Personalized ChatBot

✔️ Domain specialized Q&A system

✔️ Recommendation System     

728x90