한컴, “PDF 데이터 감옥 깼다”…AI 학습 핵심기술 오픈소스 공개

김현아 기자I 2025.09.17 18:41:08

글로벌 AI 생태계 겨냥
성능 85%↑·보안성 강화로 기업 활용도 확대

[이데일리 김현아 기자]한글과컴퓨터(030520)가 AI 학습 과정에서 가장 큰 난제로 꼽혀온 PDF 문서 데이터 처리 병목 현상을 해결할 핵심 기술을 글로벌 오픈소스로 전격 공개했다.

한컴이 오랜 기간 축적한 문서 처리 기술을 바탕으로 개발한 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 PDF 문서에서 텍스트, 표, 이미지, 레이아웃 정보를 정확하고 빠르게 추출해 JSON·Markdown·HTML 등 AI 학습용 정형 데이터로 변환할 수 있는 엔진이다.

PDF ‘데이터 감옥’ 해방


최근 허깅페이스(Hugging Face)가 공개한 4억7500만 건 규모의 FinePDFs 데이터셋처럼 PDF는 전 세계에서 AI 학습에 가장 널리 활용되는 문서 포맷이다. 하지만 복잡한 내부 구조로 인해 데이터 추출이 어려워 ‘데이터 감옥’으로 불릴 만큼 AI 학습의 발목을 잡아왔다.

한컴은 지난 7월 PDF 전문 기업 듀얼랩(Dual Lab)과 업무협약(MOU)을 체결하고 공동 개발에 나섰으며, 이번 오픈소스 공개가 그 첫 결실이다.

성능·보안성 모두 입증

오픈데이터로더 PDF는 기존 경쟁 오픈소스 대비 우수한 성능을 보였다. 벤치마크 지표(NID, Normalized Indel Distance)에서 85% 수준의 정확도를 기록하는 등 다양한 테스트에서 성능을 입증했다.

또 금융·공공기관처럼 민감한 데이터를 다루는 환경에서도 완전 오프라인으로 작동해 외부 업로드나 정보 유출 위험을 차단한다. 이는 기업·기관 단위 도입에서 중요한 보안적 강점으로 꼽힌다.

나아가 최근 AI 업계 화두인 데이터 안전성(AI Safety) 문제에도 대응했다. 프롬프트 인젝션(Prompt Injection) 등 악의적 데이터 삽입을 자동 탐지·차단하는 기능을 탑재해 안정적인 학습 환경을 보장한다.

글로벌 AI 생태계와 연동

한컴은 이번 오픈소스 공개를 시작으로 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동을 강화하고, 글로벌 개발자 커뮤니티와 협력해 생태계 확산에 나선다.

정지환 한컴 CTO는 “AX(인공지능 전환) 시대에 오픈소스는 더 이상 선택이 아닌 필수 전략”이라며 “글로벌 개발자들과 협력해 PDF 데이터 추출 기술을 세계 최고 수준으로 발전시켜 나가겠다”고 밝혔다. 이어 그는 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 프로젝트를 지속 고도화하겠다”고 덧붙였다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지