02_Machine Leaning/Data-Centric
데이터 라벨링_ NLP
jiniby
2025. 2. 21. 12:18
728x90
1️⃣ 데이터 라벨링 기법: NLP
✅ 1.1 분류 및 태깅 (Classification & Tagging)
📌 정의:
-
문서 또는 특정 문장에 라벨(태그)을 부여하는 작업
📌 주요 특징:
✔ 문서 전체에 대한 라벨링 → 분류(Classification)
분류 사례 - 문서 내 문단별 분류 w/ Super Annotate
✔ 특정 부분(단어, 구절)에 라벨 부여 → 태깅(Tagging)
태깅 사례 - 개체명 인식 (Named Entity Recognition, NER) w/ spaCy
📌 예제:
✔ 뉴스 기사 분류 (정치, 경제, 스포츠)
✔ 상품 리뷰 감성 분석 (긍정, 부정)
✔ 개체명 인식 (이름, 장소, 날짜 태깅)
✅ 1.2 전사 (Transcription)
📌 정의:
-
음성을 텍스트로 변환하는 작업
📌 주요 특징:
✔ 일반 전사: 사람이 말한 그대로 받아적음
✔ 이중 전사: 발음 전사 + 철자 전사(표준어 표기)
✔ 화자 전사: 여러 명의 화자를 구분하여 전사
📌 예제:
✔ 팟캐스트 음성을 텍스트로 변환
✔ 유튜브 영상 자막 생성
✅ 1.3 번역 및 요약 (Translation & Summarization)
📌 정의:
-
텍스트를 다른 텍스트로 변환하는 작업
-
번역은 언어 변환, 요약은 정보 압축
📌 주요 특징:
✔ 원본 의미를 유지하면서 텍스트를 변환
✔ 일정한 문체와 스타일 유지 필요
✔ 전문적인 언어 지식 필요
📌 예제:
✔ 한국어 → 영어 번역
✔ 긴 문서를 짧은 요약문으로 변환
2️⃣ 데이터 라벨링 규칙: NLP
라벨링할 때 일관성을 유지하기 위해 정해진 규칙을 적용해야 합니다.
각 기법별 주요 규칙을 정리해볼게요.
✅ 2.1 분류 및 태깅 규칙
📌 라벨링 기준을 명확히 해야 함
✔ 라벨링할 대상과 아닌 대상을 구분
✔ 같은 범주 안에서도 라벨을 명확히 구별
📌 예제 규칙:
✔ 동일한 태그를 가진 단어가 연속될 경우, 하나의 태그로 라벨링
✔ 두 개 이상의 카테고리에 속하는 경우, 최대한 분리해서 태깅
📌 예제:
-
"서울시 강남구" → "서울시"와 "강남구"를 별개 태깅 (행정구역 구분)
✅ 2.2 전사 규칙 (음성 → 텍스트 변환 시 적용)
📌 전사할 때 고려할 요소
✔ 맞춤법 통일 (예: 띄어쓰기, 방언 변환)
✔ 배경 소음 처리 (필요한 경우 제외)
✔ 개인정보 보호 (이름, 주소 마스킹)
📌 예제 규칙:
✔ 축약어는 표준어와 함께 이중 전사
-
원문: "쨌든 그 일 땜에 글케 된 건 맞아."
-
전사: "(쨌든)/(어쨌든) 그 일 (땜에)/(때문에) (글케)/(그렇게) 된 건 맞아."
✔ 주소는 동(洞)까지만 전사하고 나머지는 마스킹
-
원문: "홍제동 한양아파트 205동 304호로 배달해주세요."
-
전사: "홍제동 &address&로 배달해주세요."
✔ 개인정보 마스킹 규칙
-
동일한 이름이 여러 번 나오면 순서대로 번호 부여
-
원문: "그때 철수랑 민수랑 너랑 나랑 갔잖아. 철수도 알고 있지?"
-
전사: "그때 &name1&이랑 &name2&이랑 너랑 나랑 갔잖아. &name1&도 알고 있지?"
✅ 2.3 요약 규칙
📌 요약 시 고려할 요소
✔ 몇 문장으로 요약할 것인지 정하기
✔ 수정 불가능한 단어와 수정 가능한 단어 정의
✔ 필수 포함 정보(육하원칙: 누가, 언제, 어디서, 무엇을, 왜, 어떻게)
📌 예제 규칙:
✔ 모든 문장에는 육하원칙 요소 포함
✔ 원문에 있는 핵심 키워드 2개 이상 포함
📌 예제:
-
원문: "LG전자가 신형 OLED TV를 출시했다. 신제품은 AI 업스케일링 기능을 탑재하고 있다."
-
요약: "LG전자, 신형 OLED TV 출시… AI 업스케일링 기능 포함"
기법 |
주요규칙 |
예제 |
분류 및 태깅 |
연속된 단어는 하나의 태그로 라벨링 |
"서울시 강남구" → "서울시" / "강남구" |
전사 |
방언, 축약어는 표준어로 이중 전사 |
"쨌든" → "(쨌든)/(어쨌든)" |
개인정보 보호 |
이름, 주소 마스킹 |
"철수" → "&name1&" |
요약 |
육하원칙 포함, 핵심 키워드 유지 |
"LG전자 OLED 출시" |
728x90