05_CV(Computer Vision)/OCR
1. OCR이란 ?
jiniby
2025. 3. 24. 10:22
728x90
비정형 데이터 자산화
비정형 데이터란?
→ 문서, 사진, 음성, 동영상처럼 구조가 없는 데이터
활용:
OCR과 STT(음성 → 텍스트)를 통해 문서나 상담 기록을 AI가 처리할 수 있게 바꿈
고객 상담 기록 → 데이터베이스화 → 추천 서비스나 분석에 사용
📌 3. OCR 기술 비교 데모
플랫폼 | 특징 | 링크 |
Microsoft Azure OCR | MS의 텍스트 인식 솔루션, 한글 포함 다국어 지원 | https://portal.vision.cognitive.azure.com/demo/extract-text-from-images |
Naver Clova OCR | 네이버의 문서 특화 OCR, 한글에 최적화 | https://clova.ai/?lang=ko |
Selvy OCR | 셀바스의 OCR 서비스, 다양한 문서 유형 지원 | https://ocr.selvasai.com/demo |
Upstage Document AI | 문서 인식 특화 AI, 커스터마이징 가능 | https://www.upstage.ai/document-ai/overview |
※ 각 플랫폼별 실패 사례(failure case)도 비교되며, 성능에 차이가 있음
💡 요약 정리
구분 | 내용 |
OCR 기술 | 이미지 속 텍스트를 기계가 읽고 처리 |
실생활 활용 | 번역, 결제, 키오스크 등 |
기업 활용 | 보험청구 자동화, 무역 문서 처리, 상담기록 자산화 |
주요 효과 | 자동화, 표준화, 투명성, 비용 절감 |
대표 기술 비교 | Azure, Naver Clova, Selvy, Upstage |
1. OCR이란?
OCR = Optical Character Recognition (광학 문자 인식)
이미지 속 글자(문자)를 컴퓨터가 읽을 수 있는 텍스트로 바꾸는 기술
예: 스캔한 문서, 사진에 찍힌 글자를 컴퓨터가 읽게 만드는 것
2. OCR 동작 흐름
1.텍스트 검출 (Text Detection)
이미지 안에서 **글자가 있는 영역(박스)**을 찾음
2. 텍스트 인식 (Text Recognition)
박스 안의 글자를 문자로 변환함
3. Layout 분석 (문서 구조 이해)
글자뿐만 아니라 표, 문단, 구역 등 문서의 구조도 파악
3. 텍스트가 있는 이미지 유형
🗂️ Document Image (문서 이미지)
- 서류, 영수증, 양식 등
- 글자 많고, 표나 도식 구조가 있음
- 종이 문서를 스캔한 이미지
* 높은 텍스트 밀도
* 표, 도식 같은 특이한 레이아웃
* 아날로그 데이터의 열화
📸 Scene Text Image (장면 이미지)
- 간판, 메뉴판, 거리 사진처럼 실제 환경에 있는 글자
- 배경이 복잡하고 글자 모양도 다양해서 어려움
* 불규칙적인 배경
* 다양한 색과 변형 (Word Art)
* 비교적 다양한 글씨체
4. OCR이 왜 필요할까?
✅ 업무 자동화
- 사람이 손으로 입력하던 문서 작업을 자동화 가능
- 예: 종이 계약서 내용을 자동으로 텍스트화
✅ 24시간 자동 처리
- OCR을 쓰면 사람 없이도 연중무휴 자동 문서 처리 가능
✅ 교육/인건비 절감
- 사람을 교육하지 않아도 되니 비용 절감
728x90