네이버 CLOVA OCR API + Excel VBA 연동 모듈 매뉴얼
이 모듈은 Excel VBA를 활용하여 이미지 파일로부터 텍스트를 자동으로 추출하고, 각 텍스트의 좌표 정보를 함께 가져오는 자동화 도구입니다. 특히 자동차 과태료 고지서나 보험 증권 이미지 등에서 중요한 정보를 추출할 때 유용하며, 줄(line) 단위와 단어(word) 단위로 텍스트와 위치 정보를 정리해줍니다.
📌 사용 목적 및 필요성
-
비정형 이미지 문서의 자동화된 데이터 추출
수기로 입력하거나, 이미지에 포함된 정보를 사람이 직접 읽고 옮기는 번거로운 작업을 자동화합니다. -
정형화되지 않은 문서 분석 기반 구축
각 텍스트의 좌표 정보를 함께 추출하여, 문서 레이아웃 분석 또는 조건 기반 텍스트 추출이 가능하게 됩니다. -
다양한 문서 처리 대응력 확보
OCR 결과를 줄 단위 및 단어 단위로 나누어 기록함으로써, 다양한 문서 양식에 유연하게 대응할 수 있습니다.
🧩 기능 요약
-
이미지 선택: 사용자가 다중 이미지 파일을 선택할 수 있습니다.
-
OCR 호출: 네이버 CLOVA OCR API를 통해 이미지에서 텍스트 및 좌표를 추출합니다.
-
기존 데이터 활용: 이전에 추출된
.txt
파일이 존재할 경우, 중복 API 호출 없이 기존 결과를 활용합니다. -
텍스트 구조화:
-
줄(line) 단위 텍스트 및 좌표 출력
-
단어(word) 단위 텍스트 및 좌표 출력
-
-
Excel 자동 출력: 결과는 현재 워크시트에 자동으로 구조화되어 기록됩니다.
⚙️ 사용 방법
-
VBA 환경에서
ocr_text
및ocr_text_json
모듈을 포함한 후,ocr_text
매크로를 실행합니다. -
이미지 파일 선택 창이 나타납니다. OCR 처리를 원하는 이미지 파일을 선택하세요.
-
Excel 시트에 줄 단위, 단어 단위 텍스트 및 좌표 정보가 자동으로 출력됩니다.
🌟 유용성 및 활용 예
-
자동차 과태료 고지서 처리: 차량 번호, 과태료 금액, 납부기한 등 추출
-
보험 증권 분석: 피보험자, 보장 항목, 보험 기간 등 자동 인식
-
기타 공공문서, 스캔자료 OCR 처리
-
문서 위치 기반 필드 추출 자동화: 좌표 정보 기반의 조건 필터링 또는 자동 입력
⚠️ 주의사항
-
API 인증키 필요: 네이버 CLOVA OCR API의 Client ID/Secret 키를 반드시 설정해야 합니다.
-
OCR 사용 제한: 네이버 API의 일일/분당 요청 제한에 유의해야 합니다.
-
한글 깨짐 방지: 응답 파일은 UTF-8 형식이며, 강제 인코딩 설정이 포함되어 있어야 정상 작동합니다.
-
좌표 기준:
vertices
값은 이미지 내의 픽셀 좌표이며, 문서 내 상대 좌표가 아님에 유의하세요. -
이미지 품질: 이미지 해상도가 낮거나 텍스트 왜곡이 있을 경우 정확도 저하 가능성이 있습니다.
🧠 기타 팁
-
OCR 결과를 엑셀 함수나 필터와 조합하여 원하는 정보만 빠르게 추출할 수 있습니다.
-
좌표 정보를 활용하여 ‘문서 내 특정 위치’ 기준으로 텍스트를 찾는 기능 확장도 가능합니다.
-
줄 단위 데이터를 기준으로 재정렬, 그룹핑, 필터링 등을 구현하면 더욱 정밀한 분석이 가능합니다.