헬피 도큐먼트 비전은 문서 내 단락 뿐 아니라 표, 차트, 수식, 이미지 등 다양한 시각적 요소를 자동으로 분석할 수 있다. 테이블 처리에 극대화한 VLM(Vision Language Model)인 ‘헬피 테이블 비전’을 중심으로 글로벌 최고 수준의 오픈소스 모델들을 결합해 높은 정확도와 처리량을 동시에 확보했다.
|
엘리스그룹은 기존 상용 솔루션과 성능을 비교한 결과 헬피 도큐먼트 비전이 문서 레이아웃 분석 및 데이터 추출에 평균 9.8초를 소요, 기존 솔루션의 33.6초를 대폭 단축했다고 설명했다. 읽기 순서 추출 정확성과 표·수식 추출 성능, 실행 시간 등 전반적인 문서 이해 성능에서도 우수성을 확인했다는 설명이다.
아울러 헬피 도큐먼트 비전은 사내 데이터와 학습 인프라를 유기적으로 결합해 금융, 의료, 법률 등 도메인별 특수 문서에 맞춘 빠른 최적화가 가능하다. 이를 통해 최근 기업들이 도입하고 있는 RAG(검색증강생성) 및 AI 에이전트 시스템 성능을 높일 수 있다.
엘리스그룹은 이번에 활용한 VLM을 문서 인식 외에 상황 판단 및 행동 수행까지 가능한 ‘시각 언어 행동 모델(VLA)’로 발전시킬 계획이다. VLA는 AI가 복잡한 매뉴얼이나 도면을 보고 실제 산업 현장에서 로봇이나 기계를 정교하게 제어하게 돕는 기술로 물리적 환경에서 AI가 움직이는 ‘피지컬 AI’의 핵심 역할을 하게 된다.





![결혼 앞둔 예비신부 사망…성폭행 뒤 살해한 그놈 정체는 [그해 오늘]](https://image.edaily.co.kr/images/vision/files/NP/S/2026/03/PS26031200001t.jpg)