02_Machine Leaning/Data-Centric

데이터 라벨링_ NLP

jiniby 2025. 2. 21. 12:18
728x90

 

1️⃣ 데이터 라벨링 기법: NLP

 1.1 분류 및 태깅 (Classification & Tagging)

📌 정의:
  • 문서 또는 특정 문장에 라벨(태그)을 부여하는 작업
📌 주요 특징:
   ✔ 문서 전체에 대한 라벨링 → 분류(Classification)
분류 사례 - 문서 내 문단별 분류 w/ Super Annotate
   ✔ 특정 부분(단어, 구절)에 라벨 부여 → 태깅(Tagging)
태깅 사례 - 개체명 인식 (Named Entity Recognition, NER) w/ spaCy
 
📌 예제:
   ✔ 뉴스 기사 분류 (정치, 경제, 스포츠)
   ✔ 상품 리뷰 감성 분석 (긍정, 부정)
   ✔ 개체명 인식 (이름, 장소, 날짜 태깅)

 1.2 전사 (Transcription)

📌 정의:
  • 음성을 텍스트로 변환하는 작업
📌 주요 특징:
   ✔ 일반 전사: 사람이 말한 그대로 받아적음
   ✔ 이중 전사: 발음 전사 + 철자 전사(표준어 표기)
   ✔ 화자 전사: 여러 명의 화자를 구분하여 전사
📌 예제:
   ✔ 팟캐스트 음성을 텍스트로 변환
   ✔ 유튜브 영상 자막 생성

 1.3 번역 및 요약 (Translation & Summarization)

📌 정의:
  • 텍스트를 다른 텍스트로 변환하는 작업
  • 번역은 언어 변환, 요약은 정보 압축
📌 주요 특징:
   ✔ 원본 의미를 유지하면서 텍스트를 변환
   ✔ 일정한 문체와 스타일 유지 필요
   ✔ 전문적인 언어 지식 필요
📌 예제:
   ✔ 한국어 → 영어 번역
   ✔ 긴 문서를 짧은 요약문으로 변환

2️⃣ 데이터 라벨링 규칙: NLP

라벨링할 때 일관성을 유지하기 위해 정해진 규칙을 적용해야 합니다.
각 기법별 주요 규칙을 정리해볼게요.

 2.1 분류 및 태깅 규칙

📌 라벨링 기준을 명확히 해야 함
   ✔ 라벨링할 대상과 아닌 대상을 구분
   ✔ 같은 범주 안에서도 라벨을 명확히 구별
📌 예제 규칙:
   ✔ 동일한 태그를 가진 단어가 연속될 경우, 하나의 태그로 라벨링
   ✔ 두 개 이상의 카테고리에 속하는 경우, 최대한 분리해서 태깅
📌 예제:
  • "서울시 강남구" → "서울시"와 "강남구"를 별개 태깅 (행정구역 구분)

 2.2 전사 규칙 (음성 → 텍스트 변환 시 적용)

📌 전사할 때 고려할 요소
    ✔ 맞춤법 통일 (예: 띄어쓰기, 방언 변환)
    ✔ 배경 소음 처리 (필요한 경우 제외)
    ✔ 개인정보 보호 (이름, 주소 마스킹)
📌 예제 규칙:
   ✔ 축약어는 표준어와 함께 이중 전사
  • 원문: "쨌든 그 일 땜에 글케 된 건 맞아."
  • 전사: "(쨌든)/(어쨌든) 그 일 (땜에)/(때문에) (글케)/(그렇게) 된 건 맞아."
   ✔ 주소는 동(洞)까지만 전사하고 나머지는 마스킹
  • 원문: "홍제동 한양아파트 205동 304호로 배달해주세요."
  • 전사: "홍제동 &address&로 배달해주세요."
   ✔ 개인정보 마스킹 규칙
  • 동일한 이름이 여러 번 나오면 순서대로 번호 부여
  • 원문: "그때 철수랑 민수랑 너랑 나랑 갔잖아. 철수도 알고 있지?"
  • 전사: "그때 &name1&이랑 &name2&이랑 너랑 나랑 갔잖아. &name1&도 알고 있지?"

 2.3 요약 규칙

📌 요약 시 고려할 요소
   ✔ 몇 문장으로 요약할 것인지 정하기
   ✔ 수정 불가능한 단어와 수정 가능한 단어 정의
   ✔ 필수 포함 정보(육하원칙: 누가, 언제, 어디서, 무엇을, 왜, 어떻게)
📌 예제 규칙:
   ✔ 모든 문장에는 육하원칙 요소 포함
   ✔ 원문에 있는 핵심 키워드 2개 이상 포함
📌 예제:
  • 원문: "LG전자가 신형 OLED TV를 출시했다. 신제품은 AI 업스케일링 기능을 탑재하고 있다."
  • 요약: "LG전자, 신형 OLED TV 출시… AI 업스케일링 기능 포함"

 

기법
주요규칙
예제 
분류 및 태깅
연속된 단어는 하나의 태그로 라벨링
"서울시 강남구" → "서울시" / "강남구"
전사
방언, 축약어는 표준어로 이중 전사
"쨌든" → "(쨌든)/(어쨌든)"
개인정보 보호
이름, 주소 마스킹
"철수" → "&name1&"
요약
육하원칙 포함, 핵심 키워드 유지
"LG전자 OLED 출시"

 

728x90