728x90
데이터 수집 : 직접 수집
☑️새로운 데이터 수집
✔️데이터 수집 방법
✅ 직접 수집: 센서, 설문조사, 실험 등
✅ 웹 크롤링: 인터넷에서 필요한 데이터를 자동으로 수집
✅ 오픈 소스 데이터 활용: 공개된 데이터셋 사용
✅ 클라우드 소싱: 다수의 사용자가 데이터를 제공
✔️수집한 데이터의 양을 늘리는 방법
✅ 데이터 혼합 (Data Blending)
-
서로 다른 소스의 데이터를 합쳐서 새로운 데이터셋 생성
-
예시) 넷플릭스 평점 데이터 + 무비Lens 데이터 → 더 크고 풍부한 영화 평점 데이터
-
예시) 주식 데이터 + 뉴스 데이터 → 주가 예측 데이터
-
✅ 데이터 증강 (Data Augmentation)
-
기존 데이터를 변형하여 새로운 데이터를 생성
- 데이터의 도메인(이미지, 텍스트, 오디오 등)에 따라 증강 방법이 다름
-
예시) 이미지 회전, 색상 변경 등을 활용해 데이터 수 증가
-
✅ 데이터 합성 (Data Synthesis)
-
AI 등을 활용해 가상의 데이터를 생성
-
예시) 실제 의료 데이터를 기반으로 새로운 가상의 의료 데이터 생성( 3D 모델링을 활용한 합성)
-
예) 가상의 도로 환경을 만들어 자동차 주행 데이터를 생성 (배경 오브젝트 합성)
-
데이터 수집 : 직접 수집
✔️직접 수집 방법
✅ 이미지/영상 데이터 → 스마트폰, 카메라로 사진 및 동영상 촬영
✅ 텍스트/음성 데이터 → 문서 작성, 음성 녹음
✅ 센서 데이터 → GPS, 속도 센서 등 활용
💡 쉽게 접근할 수 있는 기기를 활용하여 다양한 원시 데이터를 수집 가능!
✔️ 직접 수집 방식의 한계
문제점 | 설명 |
수량 부족 | 대량의 데이터 확보가 어려움 (딥러닝 학습에 필요한 수준이 안 될 수도 있음) |
품질 제한 | 특정 수준 이상의 정교한 데이터 수집이 어려움 (기기 한계, 환경 문제 등) |
편향 발생 | 데이터가 특정 환경에 치우칠 위험 (대표성이 떨어질 수 있음) |
전문성 부족 | 특정 도메인 지식이 필요한 경우, 전문가 없이 데이터의 신뢰도가 낮아질 수 있음 |
💡 따라서 직접 수집 데이터는 가공 및 추가적인 수집 방법과 병행하는 것이 중요!
✔️도메인별 직접 수집 예시
📌 이미지/영상 데이터 수집 예시
-
선박 도장 품질 데이터 (예: 스마트폰으로 촬영한 도장 결함 사진)
-
촬영 가이드 적용 (조명 고려, 초점 맞추기, 균일한 구도 등)
📌 텍스트/음성 데이터 수집 예시
-
감성 대화 말뭉치 데이터 (예: 특정 감정이 담긴 대화를 녹음하여 데이터화)
-
시나리오에 맞춰 여러 감정 상태를 반영한 데이터 구축
728x90
'02_Machine Leaning > Data-Centric' 카테고리의 다른 글
데이터 수집 4: 크라우드소싱 (0) | 2025.02.20 |
---|---|
데이터 수집3 : 오픈 소스 (0) | 2025.02.20 |
데이터 수집2 : 크롤링 (0) | 2025.02.20 |
데이터 구축 프로세스 (0) | 2025.02.20 |
Data- Centric AI란 ? (0) | 2025.02.17 |