04_NLP(Natural Language Processing)자연어처리/LLM

LLM 기반 Data-Centric NLP 연구

jiniby 2025. 2. 6. 18:08

✅ LLM 학습 데이터 종류

☑️ LLM 학습 데이터 종류

✔️ LLM 학습 데이터 개요

✔️ 사전 학습 데이터

✔️ 사전 학습 데이터의 품질 및 다양성

✔️ 사전 학습 데이터 구성의 예

✔️ 태스크 특화 사전 학습

☑️ 미세 조정을 위한 학습 데이터

✔️ 미세 조정 데이터

✔️ 사전 학습과 미세 조정: InstructGPT

✔️ Instruction Dataset

○단 1,000개의 고품질 instruction dataset으로 학습한 LLaMa 모델이 더 많은 데이터로 학습한 다른 모델보다 Human Evaluation에서 더 높은 수준의 성능을 보였음

→ Instruction Quality..!

✔️ Alignment Tuning

☑️ LLM 데이터 전처리

✔️ 자연어 처리에서의 데이터 품질의 중요성

✔️ LLM 데이터 관리 연구들

✔️ 기존 LLM의 데이터 전처리: GPT-3

✔️ 기존 LLM의 데이터 전처리: LLaMa

✔️ The Pile: An 800GB Dataset of Diverse Text for Language Modeling

✔️ The RefinedWeb Dataset for Falcon LLM

✔️ When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

✔️ Textbooks are all you need ii: phi-1.5 technical report

✔️ D4: Improving LLM Pretraining via Document De-Duplication and Diversification

신중한 단어 선택 ! 성능을 20%높임 !

✔️ Self-Refine: Iterative Refinement with Self-Feedback

☑️ LLM 기반 라벨링 연구

✔️ LLM 기반 데이터 라벨링

✔️ 증강 연구 (1): LLM-powered Data Augmentation for Enhanced Crosslingual Performance

✔️ 증강 연구 (2): Mixture of Soft Prompts for Controllable Data Generation

✔️ 합성 연구 (1): Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality

✔️ 합성 연구 (2): DISCO: Distilling Counterfactuals with Large Language Models

✔️ 합성 연구 (3): Large Language Model as Attributed Training Data Generator

심플 프롬포트를 사용한 합성데이터셋 중요한 편향을 보임 !

✔️ 합성 연구 (4): Instruction tuning with gpt-4

✔️ 합성 연구 (5): Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions

LLM 기반 Application (0)	2025.02.07
LLM Evaluation (0)	2025.02.07
Large Language Model의 근간 이론들 (1)	2025.02.06
Large Language Model 이란? (1)	2025.02.06
사전학습 기반 언어모델의 한계점 및 방향성 (1)	2025.02.06

현재글LLM 기반 Data-Centric NLP 연구

jiniby 님의 블로그

jiniby 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

LLM 기반 Data-Centric NLP 연구

✅ LLM 학습 데이터 종류

☑️ LLM 학습 데이터 종류

✔️ LLM 학습 데이터 개요

✔️ 사전 학습 데이터

●웹 데이터(Wikipedia, News, Reviews, …) 등을 활용하여 구축 ●데이터의 품질 및 다양성이 모델의 성능에 큰 영향을 줌 ⇒ 데이터 전처리 작업이 중요 ●품질 및 성능 보장을 위해 필터링/중복 제거 등의 전처리 작업 필요

●영어의 경우 특히 Common Crawl, WebText2, BookCorpus, Wikipedia 등을 소스로 활용

✔️ 사전 학습 데이터의 품질 및 다양성

● LLM 사전 학습 데이터의 “Age”, “Quality”, and “Composition (Domain)”이 평가 성능에 큰 영향을 줌

●특히 다양한 Data sources에 대한 coverage가 가장 큰 영향을 줌 (우측 하단)

✔️ 사전 학습 데이터 구성의 예

● GPT-3의 경우: ○ GPT-3: Common Crawl (filtered), WebText2, Books1, Books2, Wikipedia (total 300 billion tokens)

● LLama의 경우:

○ LLAMA 1: Common Crawl, C4, Github, Wikipedia, Books, ArXiv, StackExchange (total 1.4T tokens)

✔️ 태스크 특화 사전 학습

특정 작업에 특화된 언어 모델을 구축하는 방법 중 하나로, 사전 학습 단계에서 특정 도메인의 데이터를 높은 비율로 구성하여 모델을 학습하는 방법

● LaMDA: Language Models for Dialog Applications:

대화 어플리케이션 구축을 위하여 전체 사전학습 데이터 중 약 절반 (50%)을 대화 데이터로 할당하여 모델 학습

● BLOOM, PaLM:

다국어 특화 LLM 구축을 위해 다양한 언어권의 텍스트를 사전 학습에 함께 활용

● Galactica:

과학 도메인 특화 LLM 구축을 위해 사전학습 데이터의 약 86%를 과학 데이터로 사용

● AlphaCode:

코드 생성 특화 LLM 구축을 위해 사전학습 데이터를 전부 코드 데이터로 사용

☑️ 미세 조정을 위한 학습 데이터

✔️ 미세 조정 데이터

●사전 학습된 모델을 특정 작업에 특화된 데이터셋으로 튜닝하여 활용할 때 사용되는 데이터

●사전 학습 데이터와의 차이점은 입력에 대응하는 정답(출력 또는 선호하는 결과)이 존재

●최근에 LLMs 튜닝을 위하여 아래와 같은 두 종류의 미세 조정 방법론을 활용:

○지시어 (Instruction)와 대응하는 출력 (answer)으로 구성된 데이터로 모델을 학습하여 언어 모델의 자연어 지시에 대한 일반화 성능을 높이는 Instruction tuning

○사람의 선호도 (Human preferences)가 반영된 데이터로 모델을 학습하는 Alignment tuning

● LLM 이전에 활용되던 비-자연어 형식의 데이터는 Instruction과 같은 자연어 형태로 변환하여 LLMs 미세 조정에 활용

✔️ 사전 학습과 미세 조정: InstructGPT

● 사전 학습된 모델을 활용하여 Instruction Tuning 및 Preference Tuning을 수행한 InstructGPT의 예

✔️ Instruction Dataset

● Instruction Tuning: 언어 모델이 자연어 형태의 지시사항(Instruction)을 이해할 수 있도록 하는 미세조정 방법론

● Instruction Dataset:

지시어(Instruction)과 대응하는 출력(Answer)으로 구성된 Instruction 형식의 데이터

○지시어 (Instruction): 해결하고자 하는 작업을 LLM이 이해할 수 있도록 하는 자연어 설명

○출력 (Answer): 지시사항에 대응하는 정답 생성 결과

●기존의 지도학습 패러다임과 유사하나, Instruction Tuning은 비교적 적은 수의 예제만으로 높은 성능 및 새로운 태스크에 대한 일반화가 가능하여, 더욱 효율적인 학습 패러다임으로 주목받고 있음

●데이터셋의 형식 및 품질이 중요함

●다양한 분야에 대한 지시어로 학습한 모델을 Unseen task에 대한 일반화를 목표로 함

● Cross-Task Generalization via Natural Language Crowdsourcing Instructions:

○ 61 distinct NLP tasks에 대한 데이터셋 활용하여 Instruction 형식의 데이터로 mapping 작업 수행. + Human created instructions을 덧붙임

○최종 193k task instances (input-output pairs)

○ Seen tasks에 모델을 학습하고, Unseen tasks에 모델 평가를 수행

→ Instruction에 학습된 모델이 19% 향상된 일반화 성능

● Finetuned Language Models Are Zero-shot Learners (Wei et al., 2022):

○ 62 NLP datasets ⇒ instruction format으로 변환 ○ Language Understanding and language generation tasks를 모두 커버

○각 Task마다 10개의 Manual templates를 활용 → Diversity 개선

● Super-NaturalInstructions (Wang et al., 2022):

○ Natural Instructions, FLAN보다 더 diverse, large

○이 데이터로 학습한 모델이 1/16 수준의 파라미터만으로 InstructGPT보다 약 9% 성능 개선

● Stanford Alpaca: An Instruction-following LLaMA Model (합성데이터)

Self-Instruct 방법론 기반 GPT-3.5를 활용하여 Instruction Dataset 생성하여 Alpaca 모델 학습에 활용

● LIMA: Less Is More for Alignment

✔️ Alignment Tuning

●언어 모델을 특정 작업이나 대상 (인간 등)의 preferences에 따라 튜닝하는 것

●일반적으로 Instruction Tuning이 Alignment Tuning에 포함되나, 여기선 Preference learning의 관점으로 언급

● Training language models to follow instructions with human feedback Fine-tuned GPT-3를 활용, 다양한 결과를 생성해 놓고 Human preference annotation에 기반한 데이터셋 구축

preference 데이터 기반 Reinforcement Learning with Human Feedback (RLHF) 학습

● Constitutional AI: Harmlessness from AI Feedback

RLHF가 효과적이나, 고품질 human preference annotations를 수집하는 비용/시간이 큼

Human labels 없이 Harmful output 식별을 위한 AI assistant를 학습/활용하는 방법을 실험 및 제안

● RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Aligned AI preference를 생성하는 기술에 대한 광범위한 연구 수행 RLAIF가 인간 수준의 성능을 달성

● Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Preference data 구축도 문제지만, RLHF는 학습 프로세스 자체가 불안정함 → Human preferences를 학습하면서 기존의 분포에서 너무 크게 벗어나지 않도록 유지하는 등의 복잡한 학습 과정 요구!!!

Preference data로부터 “directly” LM을 학습하는 방법론 제안

☑️ LLM 데이터 전처리

✔️ 자연어 처리에서의 데이터 품질의 중요성

●데이터 양 vs. 품질: 양도 중요하지만, 품질 및 다양성이 중요!!!

✔️ LLM 데이터 관리 연구들

✔️ 기존 LLM의 데이터 전처리: GPT-3

● Data filtering: CommonCrawl 데이터(웹상)에 대하여 Similarity 기반 filtering 작업 수행 ○ High quality document를 분류하는 classifier를 학습하여 활용

● Deduplication: Fuzzy deduplication을 document level로 수행

○문서의 특징에 기반한 Hashing 방법론 활용 (Spark’s MinHashLSH 구현체 활용)

○전체 데이터 집합의 크기를 10% 줄이고, 과적합을 방지(모델의 스케일이 커질 수록 더 중요하다고 언급)

● Diversify: WebText, Books1, Books2, Wikipedia 등의 이미 알려진 high-quality corpora를 추가로 활용

●웹 데이터(Wikipedia, News, Reviews, …) 등을 활용하여 구축
●데이터의 품질 및 다양성이 모델의 성능에 큰 영향을 줌 ⇒ 데이터 전처리 작업이 중요
●품질 및 성능 보장을 위해 필터링/중복 제거 등의 전처리 작업 필요

● GPT-3의 경우:
○ GPT-3: Common Crawl (filtered), WebText2, Books1, Books2, Wikipedia (total 300 billion tokens)

● Instruction Tuning:
언어 모델이 자연어 형태의 지시사항(Instruction)을 이해할 수 있도록 하는 미세조정 방법론

○ 62 NLP datasets ⇒ instruction format으로 변환
○ Language Understanding and language generation tasks를 모두 커버

● Training language models to follow instructions with human feedback
Fine-tuned GPT-3를 활용, 다양한 결과를 생성해 놓고 Human preference annotation에 기반한 데이터셋 구축

● Data filtering: CommonCrawl 데이터(웹상)에 대하여 Similarity 기반 filtering 작업 수행
○ High quality document를 분류하는 classifier를 학습하여 활용

● Deduplication: Line-level 중복 제거 수행, Books의 경우 내용이 90% 이상 겹치는 책 제거
● Diversify: CommonCrawl, C4, GitHub, Wikipedia, Books3, ArXiv 등 다양한 소스를 혼합

기존에 공개된 LLM의 사전학습 데이터는 공개되지 않음
⇒ LLM 사전학습을 위한 “The Pile” 데이터셋 및 데이터 구축 프로세스 공개

● humans과 LLMs의 협력으로 생성하는 데이터의 다양성과 품질 개선: human-in-the-loop text data generation
● LLMs를 활용한 생성 결과에 적용한 human validation (Label replacement)[36] 과정이 모델 성능을 크게 개선