IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

한컴, '오픈데이터로더 v2.0' 공개…"고성능 PDF 데이터 무료 추출"

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

오픈소스 PDF 데이터 추출 부문 벤치마크 1위…로컬 보안 환경 제공
광학문자인식·표·수식·차트 분석 등 무료 AI 애드온 4종 탑재

[아이뉴스24 윤소진 기자] 한글과컴퓨터(한컴)는 오픈소스 PDF 데이터 추출 부문에서 벤치마크 1위 성능을 달성한 ‘오픈데이터로더 PDF v2.0’을 12일 공개했다.

한컴 오픈데이터로더 PDF 2.0 추출 성능 벤치마크. [사진=한컴]
한컴 오픈데이터로더 PDF 2.0 추출 성능 벤치마크. [사진=한컴]

이번 버전의 가장 큰 특징은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진이다. 기업과 개발자는 외부 서버로의 데이터 유출 우려 없이 완벽하게 차단된 로컬 환경에서 고성능 PDF 데이터 추출 기능을 무료로 활용할 수 있다.

문서 내 복잡한 요소를 추출하는 무료 AI 애드온 4종이 기본 탑재됐다. ‘광학문자인식(OCR)’은 이미지 기반 PDF와 스캔 문서의 텍스트 인식률을 높인다. ‘표 추출’은 초경량 AI 모델로 병합된 셀 등 복잡한 표 구조를 정밀하게 분석한다. ‘수식 추출’은 과학·수학 논문의 복잡한 수식을 로컬 환경에서 인식한다. ‘차트 분석’은 차트가 의미하는 맥락을 문장 형태로 설명한다.

이들 애드온은 도클링(Docling) 등 타사 오픈소스 AI 모델과 호환되도록 구현됐다. 특정 주체와 공식적인 제휴나 후원 관계에 있는 것은 아니지만, 사용자가 기존 기술 환경에서 쉽게 연동할 수 있도록 객관적인 기술 호환성을 확보했다. 향후 유연한 애드온 구조를 통해 더 많은 AI 모델을 추가할 수 있다.

오픈데이터로더 PDF v2.0은 자체 벤치마크 테스트에서 1위 수준의 성능을 기록했다. 오픈소스의 핵심 가치인 투명성을 보여주기 위해 벤치마크 테스트 데이터와 재현 가능한 상세 코드를 공식 깃허브 저장소에 모두 공개했다.

이번 출시를 계기로 오픈소스 라이선스를 기존 MPL 2.0에서 아파치 2.0으로 변경했다. 상업적 활용이 가장 자유로운 라이선스로 바꿔 외부 개발자와 글로벌 IT 기업의 진입 장벽을 낮췄다.

자율형 AI 에이전트 시대에 맞춘 생태계 확장도 추진한다. 2025년에 랭체인 연동을 완료했으며, 2026년에는 랭플로우, 라마인덱스, 제미나이 CLI 등 다양한 AI 프레임워크와의 연동을 확대한다. 또한 AI 에이전트 지원을 위한 MCP 기능도 준비하고 있다.

하반기에는 독자 문서 AI 기술을 집약한 상용 AI 애드온을 출시한다. 나아가 AI가 문서 구조를 분석해 접근성 태그를 자동 생성하는 기술을 오픈소스 최초로 탑재한다. 유럽 접근성법(EAA) 시행과 국내 장애인차별금지법 강화로 전 세계 기업들이 디지털 문서의 접근성 규정 준수를 과제로 안고 있는 가운데, 글로벌 접근성 표준(PDF/UA)을 충족하는 PDF AI 접근성 설루션으로 확장하고 오픈소스 기반의 새로운 비즈니스 모델을 구축한다.

정지환 한컴 최고기술책임자(CTO)는 “오픈데이터로더 PDF v2.0은 AI 하이브리드 엔진과 아파치 2.0 라이선스 전환을 통해 누구나 자유롭게 활용·확장할 수 있는 개방형 PDF 데이터 플랫폼으로 진화했다”며, “향후 상용 AI 애드온과 접근성 설루션을 통해 전 세계의 PDF 문서가 AI에 활용되는 것은 물론, 모든 사람에게 열린 문서가 되도록 글로벌 생태계를 선도하겠다”고 밝혔다.

/윤소진 기자(sojin@inews24.com)



주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 한컴, '오픈데이터로더 v2.0' 공개…"고성능 PDF 데이터 무료 추출"

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S