05_CV(Computer Vision)/OCR 10

검출기 _DBnet

DBNet++란?**DBNet++**는 OCR (Optical Character Recognition) 파이프라인에서 **텍스트 검출 (Text Detection)**을 수행하는 모델 기존 Segmentation 기반 텍스트 검출 모델 대비 후처리가 단순하고, 간단한 구조 대비 높은 성능을 보입니다.일반적인 OCR 파이프라인 구성Document 이미지 입력이미지 전처리Text Detection (텍스트 영역 검출) 👉 DBNet++ 사용 위치Text Recognition (텍스트 인식)결과 텍스트 출력DBNet++ 특징 1. 기존 모델과의 차별성기존의 Segmentation 기반 모델들은 이미지의 Segmentation Map 전체에 대해 단일한 이진화(Binarization) 기준을 사용합니다. 이를..

Parseq

01. ParSeq란?ParSeq(Permuted Autoregressive Sequence Model)는 대표적인 OCR 인식기 모델로,Unified STR (Scene Text Recognition) Model에 속합니다.🔑 Unified STR Model이란?이미지와 텍스트 특성을 처음부터 함께 종합하여 텍스트 인식을 수행하는 방식다양한 방향과 형태를 가진 텍스트에서 뛰어난 성능 제공Two-Stage Ensemble Model과 달리 Vision 모델과 Language 모델이 처음부터 통합됨.02. 핵심 개념: Permutation Language Modeling (PLM)PLM은 **모든 가능한 순서(Permutation)**에 대해 학습하여 다양한 방향의 텍스트를 효과적으로 인식하는 방법입니다..

TRBA

01. 모델 소개TRBA는 Scene Text Recognition 분야에서 널리 사용되는 대표적인 OCR 인식기 모델 중 하나입니다.모델 이름인 TRBA는 구성 모듈의 약자입니다. - T (Transformation): 이미지 변환 모듈 (TPS) - R (ResNet): 특징 추출 모듈 (Feature Extraction) - B (BiLSTM): 순차적 특징 모델링 (Sequence Modeling) - A (Attention): 최종 텍스트 예측 (Prediction)02. Scene Text Recognition이란?Scene Text Recognition은 일상생활 속 다양한 배경과 함께 존재하는 텍스트를 인식하는 OCR 과제입니다. - 문서 중심의 전통적 OCR보다 난이도가 높습니다.이유: ..

인식기

OCR 구조에서의 인식기(Recognizer)OCR의 핵심 구성 요소는 **검출기(Detector)**와 **인식기(Recognizer)**로 구분됩니다 구성요소 역할 출력 예시 검출기(Detector)글자 영역(bbox)을 찾음좌표 (bounding box)인식기(Recognizer)글자가 있는 영역에서 텍스트 추출"HELLO" 같은 텍스트 01. 인식기(Recognizer)에 사용되는 데이터셋인식기는 다양한 형태의 글자 이미지를 정확히 인식해야 합니다.다음과 같은 유형의 데이터를 활용하여 인식기를 학습시킵니다.📌 데이터 종류 유형 특징예시  데이터 문서 (Documents)스캔된 종이 문서, 정형적계약서, 서류장면 (Scene)간판, 표지판 등 복잡한 배경거리 사진, 간판 사진손글씨 (Han..

성능 높이기

🚩 검출 성능 향상을 위한 두 가지 접근법1️⃣ Data-centric (데이터 중심)좋은 데이터 수집, 분석, 증강을 통해 성능 개선데이터 품질과 양을 개선하는 데 집중2️⃣ Model-centric (모델 중심)모델 구조 및 하이퍼파라미터 튜닝을 통해 성능 개선네트워크 자체의 구조 및 학습 방법을 개선하는 데 집중📌 01. Data-centric 접근법① 좋은 데이터셋 확보중요 지표 설명텍스트 밀도이미지 내 텍스트의 양이 많으면 다양한 환경 학습 가능텍스트 분포텍스트가 균일하게 분포해야 다양한 위치에서 성능 향상📍 데이터셋 구축 어려움- 다양한 환경의 실제 이미지를 확보하려면 비용과 시간이 많이 소모됨- 개인정보, 민감 정보 마스킹 및 복잡한 라벨링으로 비용 상승 📍 데이터 정제 중요성잘못된 ..

검출기 _ CRAFT

🔹 01. CRAFT를 배우기 전 (배경지식)📌 일반적인 OCR Pipeline이미지 입력 → 전처리 → Text Detection → Text Recognition → 결과물 출력CRAFT는 이 중에서 Text Detection(텍스트 검출) 단계에 사용되는 대표적인 모델=🔹 02. CRAFT 소개📌 CRAFT (Character Region Awareness For Text Detection)문자(Character) 단위로 텍스트 영역을 검출하는 모델기존 Word-level 방식의 한계를 극복 (곡선, 복잡한 모양도 정확히 검출 가능)모델 구조: VGG16-BN 기반 FCN/U-net 구조주요 출력: Region score map(문자 위치), Affinity score map(문자 간 연결 ..

검출기

🔹 01. Text Detection (텍스트 검출)이란?이미지에서 "글자가 어디에 있는지" 찾아내는 기술(OCR 프로세스에서 가장 첫 번째 단계)📌 어려운 검출 케이스 (Hard Cases)글자가 왜곡(휘어짐, 뒤틀림)되어도 검출 가능글자 일부가 가려져도 검출 가능특이한 형태로 된 글자도 하나의 단어로 인식 가능언어를 몰라도 텍스트 영역을 인식 가능 (스타벅스 간판 예시)📌 사람 vs 기계사람: 경험으로 글자와 글자가 아닌 영역을 빠르게 구분기계: 의미 이해 없이 시각적 특성만으로 텍스트처럼 보이는 영역 판단🔹 02. Text Detection 방식 2가지🔖 ① Regression-based (회귀 기반)텍스트 영역을 직사각형(bbox)으로 찾아내는 방식📌 특징:Ground-truth(정답)..

OCR 데이터

1. OCR 데이터 구조 (Overview)OCR에서 사용하는 데이터는 단순한 글자만 담긴 게 아니라, 글자가 어디에 있는지(위치), 어떤 형태인지 등을 포함해 다양한 정보를 담고 있어요.📌 기본 데이터 형식은 이렇게 생김{ "text": "평생", "bbox": [486, 244, 927, 442] # x, y, width, height } bbox는 글자가 있는 위치 박스를 의미함(486, 244) 위치에서 시작해서927px 너비, 442px 높이Text direction (텍스트 방향)OCR에서는 글자가 어느 방향으로 쓰였는지를 정확히 아는 것이 중요합니다!→ 왜냐하면 텍스트 박스의 좌표 순서가 텍스트를 제대로 읽기 위한 기준이 되기 때문입니다. ✅ 좌표 순서 규칙 (시계 방향, Clockwise..

OCR 개론

전체 구조: OCR Pipeline이란?OCR Pipeline은 이미지를 입력받아 텍스트를 인식하고 출력하는 전체 흐름입니다.총 5단계로 나뉘어요:Image Pre-processing (이미지 전처리)Text Detection (텍스트 영역 찾기)Text Recognition (텍스트 읽기)Restructuring (형태 복원, 보기 좋게 정렬)(Optional) 최종 출력 텍스트 생성🔧 1. Image Pre-processing (이미지 전처리)OCR 모델이 이미지를 잘 인식할 수 있도록 사전에 "정리"하는 단계주로 하는 작업들:작업명설명🔺 Keystone Correction사다리꼴 왜곡을 직사각형으로 보정🔄 Line Straightening줄이 굽은 경우, 반듯하게 펴줌🔁 Deskew전체적으로..

1. OCR이란 ?

비정형 데이터 자산화비정형 데이터란? → 문서, 사진, 음성, 동영상처럼 구조가 없는 데이터활용: OCR과 STT(음성 → 텍스트)를 통해 문서나 상담 기록을 AI가 처리할 수 있게 바꿈 고객 상담 기록 → 데이터베이스화 → 추천 서비스나 분석에 사용📌 3. OCR 기술 비교 데모플랫폼특징링크Microsoft Azure OCRMS의 텍스트 인식 솔루션, 한글 포함 다국어 지원https://portal.vision.cognitive.azure.com/demo/extract-text-from-imagesNaver Clova OCR네이버의 문서 특화 OCR, 한글에 최적화https://clova.ai/?lang=koSelvy OCR셀바스의 OCR 서비스, 다양한 문서 유형 지원https://ocr.se..

728x90