02_Machine Leaning 18

액티브 러닝(Active Learning)

1️⃣ 액티브 러닝(Active Learning)이란?액티브 러닝은 가장 유익한 데이터를 선별적으로 선택하여 학습하는 데이터 샘플링 방법입니다.✅ 기존 방식 (수동 라벨링)과 차이점일반적인 머신러닝 학습: 무작위로 데이터를 선택하여 라벨링 후 학습액티브 러닝: 모델이 특히 중요한 데이터(불확실하거나 정보량이 많은 데이터)를 선택하여 학습✅ 이점라벨링 비용이 줄어듦 → 적은 데이터로도 높은 성능을 낼 수 있음모델이 학습할 때 "더 어려운 데이터"를 먼저 학습하여 성능 향상데이터가 많지만 라벨링할 예산이나 시간이 부족할 때 유용📌 예제:🧑‍🎓 시험 공부에 비유하면?무작위로 문제를 푸는 대신, 틀린 문제나 어려운 문제 위주로 공부하면 더 효과적!액티브 러닝은 가장 학습이 필요한 데이터만 골라서 학습하는 ..

합성데이터_NLP

✅ NLP 합성 데이터의 주요 목적데이터 보충데이터가 부족한 언어, 도메인에서 사용할 수 있는 새로운 데이터를 생성다국어 데이터 생성 가능 (예: 한국어 데이터가 부족한 경우, AI로 생성)도메인 맞춤 데이터 생성특정 산업이나 스타일에 맞춘 데이터를 생성다양한 문장 구조, 어휘를 활용하여 자연스러운 문장 만들기 가능개인 정보 보호원본 데이터와 유사하지만, 개인 정보를 포함하지 않은 데이터 생성예: 고객 서비스 데이터에서 개인정보를 제거한 가짜 데이터 생성❌NLP 합성 데이터의 한계품질 문제: 생성된 데이터가 실제 언어를 잘 반영하지 못할 수 있음잠재적 편향(Bias): 원본 데이터의 편향이 반영될 가능성과적합(Overfitting): 특정한 패턴에 맞춰진 데이터가 되어, 실제 환경에서 잘 작동하지 않을 ..

합성데이터_CV

1. 합성 데이터란?합성 데이터(Synthetic Data)란 실제 데이터가 아닌, 알고리즘이나 시뮬레이션을 통해 인위적으로 생성된 데이터🔹 목적실제 데이터를 수집하거나 사용할 수 없는 경우 대체 가능데이터 세트의 확장 및 보완을 통해 모델 학습 성능 향상실제 환경에서 관측하기 어려운 시나리오를 시뮬레이션개인 정보 보호 목적 (실제 개인정보 없이 유사 데이터 생성)2. 합성 데이터의 장점과 한계✅ 장점데이터 수집이 어렵거나 제한적인 경우에도 활용 가능데이터 수집 및 라벨링 비용 절감조명, 배경, 개체 배치 등 데이터 속성을 정밀 제어 가능엣지 케이스(드문 경우) 시뮬레이션 가능개인 정보 보호 및 라이선스 문제 완화❌ 한계현실 세계의 복잡성을 완전히 반영하지 못할 가능성생성 모델의 가정이 잘못되면 신뢰할..

데이터마무리_데이터스플릿

1️⃣ 데이터 스플릿 (Data Split)✅ 1.1 데이터 스플릿이란?데이터 스플릿: 하나의 데이터셋을 여러 개의 하위 세트로 나누는 것데이터 스플릿을 통해 과적합(Overfitting)을 방지하고, 모델의 일반화 성능을 높일 수 있음✅ 1.2 데이터 스플릿의 종류1) 2개로 나누는 경우   ✔ Training Set(학습 데이터) → 모델 학습에 사용   ✔ Testing Set(테스트 데이터) → 모델의 최종 성능 평가에 사용2) 3개로 나누는 경우   ✔ Training Set (학습 데이터) → 모델 학습에 사용   ✔ Validation Set (검증 데이터) → 하이퍼파라미터 조정 및 모델 성능 평가   ✔ Testing Set (테스트 데이터) → 최종 모델 평가📌 데이터 스플릿을 하지 ..

데이터클렌징_IAA

1️⃣ IAA(작업자 간 일치도)란?📌 IAA(Inter-Annotator Agreement)의 정의 IAA(작업자 간 일치도)를 활용하여 데이터 라벨링 품질을 평가하고 오류를 수정하는 방법주로 범주형(categorical) 또는 명목형(nominal) 데이터를 라벨링할 때 사용됩니다.📌 IAA가 중요한 이유데이터 품질을 정량적으로 평가할 수 있음라벨링이 일관되게 진행되었는지 검증 가능노이즈가 많은 데이터를 걸러내어 AI 모델 성능 향상 가능📌 IAA에 영향을 미치는 요인✔ 작업 난이도 – 데이터가 복잡할수록 IAA가 낮아질 수 있음✔ 데이터 품질 – 원천 데이터의 품질이 좋을수록 IAA가 높아짐✔ 작업자의 실력 차이 – 숙련도에 따라 일치도 차이가 발생할 수 있음✔ 라벨링 규칙 및 가이드라인 – ..

데이터 클렌징

1️⃣ 데이터 클렌징이란?📌 데이터 클렌징의 정의데이터 클렌징은 라벨링 오류를 수정하여 데이터 품질을 높이는 과정AI 모델의 학습 데이터에 포함된 잘못된 라벨을 수정하거나 제거하는 작업📌 라벨링 에러의 종류✔ 휴먼 에러 (Human Error)사람이 실수로 잘못 라벨링한 경우경험 부족, 교육 부족 등으로 발생✔ 라벨링 규칙 에러 (Labeling Rule Error)라벨링 규칙이 잘못 정의되었거나 애매하게 작성된 경우 발생작업자가 같은 데이터라도 다르게 해석하는 문제📌 데이터 클렌징의 유형✔ 직접 클렌징 → 사람이 다시 라벨링✔ 규칙 기반 클렌징 → 일정한 규칙을 설정하여 자동 수정2️⃣ 데이터 클렌징이 필요한 이유📌 라벨링 오류가 있으면 AI 모델의 성능이 저하됨잘못된 라벨이 포함되면 AI가 학..

데이터 라벨링_ 라벨링

1️⃣ 라벨링 툴 개요📌 라벨링 툴이란?데이터 라벨링을 쉽게 하기 위해 설계된 소프트웨어GUI(Graphical User Interface)를 제공하여 사용자가 편리하게 라벨링 가능자동화, 공동 작업, 검수 기능, 품질 관리 기능 포함📌 라벨링 툴 선정 기준   ✔ Quality Control → 일관성 있고 정확한 데이터 생성 가능 여부   ✔ Efficiency → 시간을 단축하고 효율적으로 작업할 수 있는지   ✔ Scalability → 대규모 데이터를 여러 사람이 동시에 작업할 수 있는지📌 AI Hub 데이터셋의 경우AI Hub에서는 상용 제품뿐만 아니라 무료 라벨링 도구도 제공AI Hub 사이트에서 다운로드 가능2️⃣ 도메인별 라벨링 툴📌 각 도메인(이미지, 텍스트, 기타)에 맞는 라벨..

데이터 라벨링_ NLP

1️⃣ 데이터 라벨링 기법: NLP✅ 1.1 분류 및 태깅 (Classification & Tagging)📌 정의:문서 또는 특정 문장에 라벨(태그)을 부여하는 작업📌 주요 특징:   ✔ 문서 전체에 대한 라벨링 → 분류(Classification)분류 사례 - 문서 내 문단별 분류 w/ Super Annotate   ✔ 특정 부분(단어, 구절)에 라벨 부여 → 태깅(Tagging)태깅 사례 - 개체명 인식 (Named Entity Recognition, NER) w/ spaCy 📌 예제:   ✔ 뉴스 기사 분류 (정치, 경제, 스포츠)   ✔ 상품 리뷰 감성 분석 (긍정, 부정)   ✔ 개체명 인식 (이름, 장소, 날짜 태깅)✅ 1.2 전사 (Transcription)📌 정의:음성을 텍스트로 변..

데이터 라벨링 _CV

1. 데이터 라벨링 기법1.1 주요 라벨링 기법바운딩 박스 (Bounding Box)객체를 감싸는 직사각형 박스를 생성하는 방법예: OCR(광학 문자 인식), 물체 감지큐보이드 (Cuboid; 3D Bounding Box)3D 공간에서 객체의 위치를 지정하는 직육면체 형태의 박스폴리곤 (Polygon)직사각형보다 정밀한 객체 윤곽을 표현하기 위한 다각형 라벨링폴리라인 (Polyline)도로 차선, 강의 경계선 같은 선형 객체를 표시하는 라벨링시맨틱 세그멘테이션 (Semantic Segmentation)이미지의 모든 픽셀에 라벨을 부여하여 어떤 객체에 속하는지 구분키포인트 (Keypoint)특정 객체(예: 얼굴, 사람의 관절 등)의 주요 지점을 점으로 지정하는 방법2. 데이터 라벨링 규칙2.1 바운딩 박스..

데이터 라벨링

1️⃣ 데이터 라벨링 개요✅ 데이터 라벨링이란?정의: 수집한 원천 데이터(raw data)에 목적에 맞는 라벨(속성)을 부여하는 과정목적: AI 모델 학습을 위한 데이터 구축라벨링 방법:자동 라벨링 – AI가 자동으로 라벨을 붙이는 방식반자동 라벨링 – AI가 라벨을 제안하고 사람이 검토직접 라벨링 (수동 라벨링) – 사람이 직접 데이터를 확인하고 라벨링 (가장 확실한 방법)✅ 데이터 라벨링 프로세스 (6단계)라벨링 대상 설정 – 어떤 데이터를 라벨링할지 결정라벨러 모집 – 라벨링 작업을 수행할 사람(작업자) 모집라벨러 교육 – 라벨링 규칙 및 도구 사용법 교육가이드라인 작성 – 라벨링 기준과 방법을 정리하여 제공라벨링 진행 – 실제 데이터를 라벨링라벨링 검수 – 품질 검토 후 수정 작업 진행● 라벨러(..