마지막 업데이트: 05 Jan, 2026
문서를 스캔하고 텍스트 이미지가 어떻게 검색 가능하고 편집 가능한 콘텐츠로 변환되는지 궁금해 본 적이 있다면, **광학 문자 인식 (OCR)**의 세계를 접한 것입니다. 하지만 이야기는 단순히 이미지에서 텍스트를 추출하는 것에 그치지 않습니다. 진정한 마법은 그 정보가 어떻게 저장되고 구조화되는가에 있습니다.
역사적 아카이브를 디지털화하거나, 비즈니스 청구서를 처리하거나, 인쇄된 책을 디지털 라이브러리로 변환할 때, 올바른 OCR 출력 포맷을 선택하는 것이 중요합니다. 이 분야를 주도하는 세 가지 포맷은 HOCR, ALTO, PDF/A입니다.
PDF/A-3 - 하이브리드 괴물? OCR 안에 원본 데이터를 삽입하기
마지막 업데이트: 29 Dec, 2025
문서 디지털화 세계에서 **OCR(광학 문자 인식)**은 종종 최종 단계로 여겨집니다—스캔하고, 텍스트를 인식하고, 보관하고, 끝. 그러나 현대의 규정 준수, 자동화 및 데이터 중심 워크플로는 단순히 검색 가능한 PDF만으로는 충분하지 않습니다. 추적 가능성, 기계가 읽을 수 있는 구조, 그리고 장기 보관 보증이 필요합니다.
이때 **PDF/A-3**이 등장합니다—종종 오해받고, 때때로 논란이 되며, 부인할 수 없을 정도로 강력합니다. 많은 개발자들이 이를 “하이브리드 괴물”이라고 부르는 이유는 이전의 PDF/A 표준이 엄격히 금지했던, 원본 소스 파일을 보관용 PDF 안에 직접 삽입할 수 있게 해주기 때문입니다.