728x90
1️⃣ 데이터 라벨링 개요
✅ 데이터 라벨링이란?
-
정의: 수집한 원천 데이터(raw data)에 목적에 맞는 라벨(속성)을 부여하는 과정
-
목적: AI 모델 학습을 위한 데이터 구축
-
라벨링 방법:
-
자동 라벨링 – AI가 자동으로 라벨을 붙이는 방식
-
반자동 라벨링 – AI가 라벨을 제안하고 사람이 검토
-
직접 라벨링 (수동 라벨링) – 사람이 직접 데이터를 확인하고 라벨링 (가장 확실한 방법)
-
✅ 데이터 라벨링 프로세스 (6단계)
-
라벨링 대상 설정 – 어떤 데이터를 라벨링할지 결정
-
라벨러 모집 – 라벨링 작업을 수행할 사람(작업자) 모집
-
라벨러 교육 – 라벨링 규칙 및 도구 사용법 교육
-
가이드라인 작성 – 라벨링 기준과 방법을 정리하여 제공
-
라벨링 진행 – 실제 데이터를 라벨링
-
라벨링 검수 – 품질 검토 후 수정 작업 진행
● 라벨러(labeler) : ‘어노테이터(annotator)’ 또는 폭넓게 ‘작업자’라고도 함
● 라벨 vs. 어노테이션(annotation; 주석) 라벨링 진행
○ ‘라벨’은 협의의 의미를 가지므로 ‘어노테이션’을 사용하기도 함 (ex. 문서 요약)
2️⃣ 라벨링 가이드라인 작성
✅ 가이드라인에 포함해야 할 요소
-
데이터 개요 – 어떤 데이터인지, 목적이 무엇인지 설명
-
용어 정의 – 라벨링에서 사용되는 용어 정리
-
어노테이션(Annotation) 절차 – 라벨링을 수행하는 순서와 도구 사용법
-
규칙 및 Edge Case – 통일된 기준을 정의하고 애매한 경우(예외 상황)를 정리
✅ 라벨링 가이드라인 작성 시 유의점
-
모든 요소를 라벨러(작업자)의 입장에서 이해하기 쉽게 작성
-
처음부터 완성도 높게 작성 → 수정이 잦으면 데이터 불일치 발생 가능
-
가이드라인이 변경될 경우, 기존 데이터를 재검토(클렌징) 필요
3️⃣ 데이터 개요 및 용어 정의
✅ 데이터 개요
-
라벨링 목적
-
예: OCR(광학 문자 인식)용 영수증 이미지 데이터
-
-
작업 데이터 설명
-
예: 글자 영역이 포함된 영수증 이미지
-
-
작업 프로세스 요약
-
예: 텍스트를 인식하고 카테고리별로 분류
-
✅ 라벨링 관련 용어
-
라벨(Label): AI 모델이 인식해야 할 정보 (예: "상품명", "가격")
-
어노테이션(Annotation): 데이터를 설명하는 추가 정보 (예: "텍스트 박스", "카테고리")
-
엔티티(Entity): 문장에서 특정 정보를 의미하는 단위 (예: "고객 이름", "주소")
-
온톨로지 (Ontology) : 데이터의 개념과 관계를 체계적으로 정리한 구조 (데이터 사전)
( 예 : AI 검색엔진 → "노트북 추천" 검색 시, 관련된 제품(맥북, 게이밍 노트북 등)을 자동 추천)
개념 | 설명 | 예제 |
텍스트 박스 (Text Box) | 문서나 이미지에서 특정 영역을 박스로 표시 | 영수증에서 상품명 표시 |
온톨로지 (Ontology) | 데이터 개념과 관계를 정리한 구조 | "사과" → "과일" → "농산물" |
카테고리 (Category) | 데이터를 그룹으로 분류하는 기준 | 뉴스 기사 → 경제, 스포츠, 연예 |
헤더 (Header) | 표에서 각 컬럼의 제목 역할 | "이름", "나이", "주소" |
엔티티 (Entity) | 문장에서 특정 대상을 의미하는 단어 | "서울" → 지명, "애플" → 기업 |
4️⃣ 어노테이션(Annotation) 절차
✅ 어노테이션 절차 및 도구 사용법
-
라벨링을 어떤 순서로 진행하는지 설명
-
툴(소프트웨어) 사용법 제공
-
예: Label Studio, CVAT 등 사용법 가이드 포함
- Improve OCR quality for receipt processing with Tesseract and Label Studio | Label Studio
-
5️⃣ 규칙 및 Edge Case 처리
✅ 라벨링 규칙 (일관성 유지)
-
동일한 데이터는 동일한 라벨링 규칙을 적용해야 함
-
예제:
-
제품명이 여러 줄로 나눠져 있을 때, 한 줄로 병합해서 라벨링
-
날짜 형식(YYYY-MM-DD) 통일
-
✅ Edge Case (예외 사항)
-
애매한 경우를 어떻게 처리할지 설명
-
예: 영수증의 일부가 손상된 경우 → '손상됨' 태그 추가
-
예: 제품명이 잘려 있는 경우 → 다른 정보(바코드 등) 참고하여 보완
-
👉 데이터 라벨링 가이드라인은 작업자가 "일관되게" 데이터를 라벨링할 수 있도록 돕는 설명서다!
728x90
'02_Machine Leaning > Data-Centric' 카테고리의 다른 글
데이터 라벨링_ NLP (1) | 2025.02.21 |
---|---|
데이터 라벨링 _CV (0) | 2025.02.21 |
데이터 전처리 (1) | 2025.02.21 |
데이터 수집시 주의 사항 (2) | 2025.02.21 |
데이터 수집 4: 크라우드소싱 (0) | 2025.02.20 |