02_Machine Leaning/Data-Centric

데이터 라벨링

jiniby 2025. 2. 21. 11:44
728x90

1️⃣ 데이터 라벨링 개요

 데이터 라벨링이란?

  • 정의: 수집한 원천 데이터(raw data)에 목적에 맞는 라벨(속성)을 부여하는 과정
  • 목적: AI 모델 학습을 위한 데이터 구축
  • 라벨링 방법:
    1. 자동 라벨링 – AI가 자동으로 라벨을 붙이는 방식
    2. 반자동 라벨링 – AI가 라벨을 제안하고 사람이 검토
    3. 직접 라벨링 (수동 라벨링) – 사람이 직접 데이터를 확인하고 라벨링 (가장 확실한 방법)

 데이터 라벨링 프로세스 (6단계)

  1. 라벨링 대상 설정 – 어떤 데이터를 라벨링할지 결정
  2. 라벨러 모집 – 라벨링 작업을 수행할 사람(작업자) 모집
  3. 라벨러 교육 – 라벨링 규칙 및 도구 사용법 교육
  4. 가이드라인 작성 – 라벨링 기준과 방법을 정리하여 제공
  5. 라벨링 진행 – 실제 데이터를 라벨링
  6. 라벨링 검수 – 품질 검토 후 수정 작업 진행
● 라벨러(labeler) : ‘어노테이터(annotator)’ 또는 폭넓게 ‘작업자’라고도 함
● 라벨 vs. 어노테이션(annotation; 주석) 라벨링 진행
○ ‘라벨’은 협의의 의미를 가지므로 ‘어노테이션’을 사용하기도 함 (ex. 문서 요약)

2️⃣ 라벨링 가이드라인 작성

 가이드라인에 포함해야 할 요소

  1. 데이터 개요 – 어떤 데이터인지, 목적이 무엇인지 설명
  2. 용어 정의 – 라벨링에서 사용되는 용어 정리
  3. 어노테이션(Annotation) 절차 – 라벨링을 수행하는 순서와 도구 사용법
  4. 규칙 및 Edge Case – 통일된 기준을 정의하고 애매한 경우(예외 상황)를 정리

 라벨링 가이드라인 작성 시 유의점

  • 모든 요소를 라벨러(작업자)의 입장에서 이해하기 쉽게 작성
  • 처음부터 완성도 높게 작성 → 수정이 잦으면 데이터 불일치 발생 가능
  • 가이드라인이 변경될 경우, 기존 데이터를 재검토(클렌징) 필요

3️⃣ 데이터 개요 및 용어 정의

 데이터 개요

  • 라벨링 목적
    • 예: OCR(광학 문자 인식)용 영수증 이미지 데이터
  • 작업 데이터 설명
    • 예: 글자 영역이 포함된 영수증 이미지
  • 작업 프로세스 요약
    • 예: 텍스트를 인식하고 카테고리별로 분류

 라벨링 관련 용어

  • 라벨(Label): AI 모델이 인식해야 할 정보 (예: "상품명", "가격")
  • 어노테이션(Annotation): 데이터를 설명하는 추가 정보 (예: "텍스트 박스", "카테고리")
  • 엔티티(Entity): 문장에서 특정 정보를 의미하는 단위 (예: "고객 이름", "주소")
  • 온톨로지 (Ontology) : 데이터의 개념과 관계를 체계적으로 정리한 구조 (데이터 사전)
    ( 예 :  AI 검색엔진 → "노트북 추천" 검색 시, 관련된 제품(맥북, 게이밍 노트북 등)을 자동 추천)
개념 설명 예제
텍스트 박스 (Text Box) 문서나 이미지에서 특정 영역을 박스로 표시 영수증에서 상품명 표시
온톨로지 (Ontology) 데이터 개념과 관계를 정리한 구조 "사과" → "과일" → "농산물"
카테고리 (Category) 데이터를 그룹으로 분류하는 기준 뉴스 기사 → 경제, 스포츠, 연예
헤더 (Header) 표에서 각 컬럼의 제목 역할 "이름", "나이", "주소"
엔티티 (Entity) 문장에서 특정 대상을 의미하는 단어 "서울" → 지명, "애플" → 기업

4️⃣ 어노테이션(Annotation) 절차

 어노테이션 절차 및 도구 사용법


5️⃣ 규칙 및 Edge Case 처리

 라벨링 규칙 (일관성 유지)

  • 동일한 데이터는 동일한 라벨링 규칙을 적용해야 함
  • 예제:
    • 제품명이 여러 줄로 나눠져 있을 때, 한 줄로 병합해서 라벨링
    • 날짜 형식(YYYY-MM-DD) 통일

 Edge Case (예외 사항)

  • 애매한 경우를 어떻게 처리할지 설명
    • 예: 영수증의 일부가 손상된 경우 → '손상됨' 태그 추가
    • 예: 제품명이 잘려 있는 경우 → 다른 정보(바코드 등) 참고하여 보완

👉 데이터 라벨링 가이드라인은 작업자가 "일관되게" 데이터를 라벨링할 수 있도록 돕는 설명서다!

728x90

'02_Machine Leaning > Data-Centric' 카테고리의 다른 글

데이터 라벨링_ NLP  (1) 2025.02.21
데이터 라벨링 _CV  (0) 2025.02.21
데이터 전처리  (1) 2025.02.21
데이터 수집시 주의 사항  (2) 2025.02.21
데이터 수집 4: 크라우드소싱  (0) 2025.02.20