메뉴얼

하나셀 애드인 - OCR 이미지에서 텍스트 및 좌표 추출

by 지천명영어 posted Apr 11, 2025
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄

2025-04-22 10 42 56.png

네이버 CLOVA OCR API + Excel VBA 연동 모듈 매뉴얼


 

이 모듈은 Excel VBA를 활용하여 이미지 파일로부터 텍스트를 자동으로 추출하고, 각 텍스트의 좌표 정보를 함께 가져오는 자동화 도구입니다. 특히 자동차 과태료 고지서나 보험 증권 이미지 등에서 중요한 정보를 추출할 때 유용하며, 줄(line) 단위단어(word) 단위로 텍스트와 위치 정보를 정리해줍니다.


📌 사용 목적 및 필요성

  • 비정형 이미지 문서의 자동화된 데이터 추출
    수기로 입력하거나, 이미지에 포함된 정보를 사람이 직접 읽고 옮기는 번거로운 작업을 자동화합니다.

  • 정형화되지 않은 문서 분석 기반 구축
    각 텍스트의 좌표 정보를 함께 추출하여, 문서 레이아웃 분석 또는 조건 기반 텍스트 추출이 가능하게 됩니다.

  • 다양한 문서 처리 대응력 확보
    OCR 결과를 줄 단위 및 단어 단위로 나누어 기록함으로써, 다양한 문서 양식에 유연하게 대응할 수 있습니다.


🧩 기능 요약

  1. 이미지 선택: 사용자가 다중 이미지 파일을 선택할 수 있습니다.

  2. OCR 호출: 네이버 CLOVA OCR API를 통해 이미지에서 텍스트 및 좌표를 추출합니다.

  3. 기존 데이터 활용: 이전에 추출된 .txt 파일이 존재할 경우, 중복 API 호출 없이 기존 결과를 활용합니다.

  4. 텍스트 구조화:

    • 줄(line) 단위 텍스트 및 좌표 출력

    • 단어(word) 단위 텍스트 및 좌표 출력

  5. Excel 자동 출력: 결과는 현재 워크시트에 자동으로 구조화되어 기록됩니다.


⚙️ 사용 방법

  1. VBA 환경에서 ocr_textocr_text_json 모듈을 포함한 후, ocr_text 매크로를 실행합니다.

  2. 이미지 파일 선택 창이 나타납니다. OCR 처리를 원하는 이미지 파일을 선택하세요.

  3. Excel 시트에 줄 단위, 단어 단위 텍스트 및 좌표 정보가 자동으로 출력됩니다.


🌟 유용성 및 활용 예

  • 자동차 과태료 고지서 처리: 차량 번호, 과태료 금액, 납부기한 등 추출

  • 보험 증권 분석: 피보험자, 보장 항목, 보험 기간 등 자동 인식

  • 기타 공공문서, 스캔자료 OCR 처리

  • 문서 위치 기반 필드 추출 자동화: 좌표 정보 기반의 조건 필터링 또는 자동 입력


⚠️ 주의사항

  • API 인증키 필요: 네이버 CLOVA OCR API의 Client ID/Secret 키를 반드시 설정해야 합니다.

  • OCR 사용 제한: 네이버 API의 일일/분당 요청 제한에 유의해야 합니다.

  • 한글 깨짐 방지: 응답 파일은 UTF-8 형식이며, 강제 인코딩 설정이 포함되어 있어야 정상 작동합니다.

  • 좌표 기준: vertices 값은 이미지 내의 픽셀 좌표이며, 문서 내 상대 좌표가 아님에 유의하세요.

  • 이미지 품질: 이미지 해상도가 낮거나 텍스트 왜곡이 있을 경우 정확도 저하 가능성이 있습니다.


🧠 기타 팁

  • OCR 결과를 엑셀 함수나 필터와 조합하여 원하는 정보만 빠르게 추출할 수 있습니다.

  • 좌표 정보를 활용하여 ‘문서 내 특정 위치’ 기준으로 텍스트를 찾는 기능 확장도 가능합니다.

  • 줄 단위 데이터를 기준으로 재정렬, 그룹핑, 필터링 등을 구현하면 더욱 정밀한 분석이 가능합니다.

2025-04-22 10 54 17 (4).png


Articles

1 2