02_Machine Leaning/Data-Centric

데이터 수집

jiniby 2025. 2. 20. 16:35
728x90

데이터 수집 : 직접 수집 

☑️새로운 데이터 수집 

✔️데이터 수집 방법 

✅ 직접 수집: 센서, 설문조사, 실험 등
✅ 웹 크롤링: 인터넷에서 필요한 데이터를 자동으로 수집
✅ 오픈 소스 데이터 활용: 공개된 데이터셋 사용
✅ 클라우드 소싱: 다수의 사용자가 데이터를 제공

✔️수집한 데이터의 양을 늘리는 방법 

✅ 데이터 혼합 (Data Blending)
  • 서로 다른 소스의 데이터를 합쳐서 새로운 데이터셋 생성
    • 예시) 넷플릭스 평점 데이터 + 무비Lens 데이터 → 더 크고 풍부한 영화 평점 데이터
    • 예시) 주식 데이터 + 뉴스 데이터 → 주가 예측 데이터
✅ 데이터 증강 (Data Augmentation)
  • 기존 데이터를 변형하여 새로운 데이터를 생성
  • 데이터의 도메인(이미지, 텍스트, 오디오 등)에 따라 증강 방법이 다름
    • 예시) 이미지 회전, 색상 변경 등을 활용해 데이터 수 증가

✅ 데이터 합성 (Data Synthesis)
  • AI 등을 활용해 가상의 데이터를 생성
    • 예시) 실제 의료 데이터를 기반으로 새로운 가상의 의료 데이터 생성( 3D 모델링을 활용한 합성) 
    • 예) 가상의 도로 환경을 만들어 자동차 주행 데이터를 생성 (배경 오브젝트 합성)

데이터 수집 : 직접 수집 

✔️직접 수집 방법

✅ 이미지/영상 데이터 → 스마트폰, 카메라로 사진 및 동영상 촬영
✅ 텍스트/음성 데이터 → 문서 작성, 음성 녹음
✅ 센서 데이터 → GPS, 속도 센서 등 활용
💡 쉽게 접근할 수 있는 기기를 활용하여 다양한 원시 데이터를 수집 가능!

 

✔️ 직접 수집 방식의 한계

문제점 설명
수량 부족 대량의 데이터 확보가 어려움 (딥러닝 학습에 필요한 수준이 안 될 수도 있음)
품질 제한 특정 수준 이상의 정교한 데이터 수집이 어려움 (기기 한계, 환경 문제 등)
편향 발생 데이터가 특정 환경에 치우칠 위험 (대표성이 떨어질 수 있음)
전문성 부족 특정 도메인 지식이 필요한 경우, 전문가 없이 데이터의 신뢰도가 낮아질 수 있음

💡 따라서 직접 수집 데이터는 가공 및 추가적인 수집 방법과 병행하는 것이 중요!


✔️도메인별 직접 수집 예시

📌 이미지/영상 데이터 수집 예시
  • 선박 도장 품질 데이터 (예: 스마트폰으로 촬영한 도장 결함 사진)
  • 촬영 가이드 적용 (조명 고려, 초점 맞추기, 균일한 구도 등)
📌 텍스트/음성 데이터 수집 예시
  • 감성 대화 말뭉치 데이터 (예: 특정 감정이 담긴 대화를 녹음하여 데이터화)

  • 시나리오에 맞춰 여러 감정 상태를 반영한 데이터 구축

 

 
728x90

'02_Machine Leaning > Data-Centric' 카테고리의 다른 글

데이터 수집 4: 크라우드소싱  (0) 2025.02.20
데이터 수집3 : 오픈 소스  (0) 2025.02.20
데이터 수집2 : 크롤링  (0) 2025.02.20
데이터 구축 프로세스  (0) 2025.02.20
Data- Centric AI란 ?  (0) 2025.02.17