IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

LG, 멀티모달 AI '엑사원 4.5' 공개…문서·이미지 함께 읽고 추론

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

13개 시각·추론 지표서 지피티-5 미니·큐웬3-VL 상회
33B 경량 모델로 효율 개선…오픈 웨이트 공개로 생태계 확장

[아이뉴스24 권서아 기자] LG AI연구원이 텍스트와 이미지를 함께 이해하는 멀티모달 인공지능(AI) 모델을 내놨다. 단순 인식 수준을 넘어 문서·도면·차트 등 복합 정보를 해석하는 데 초점을 맞춘 모델이다.

LG AI연구원은 9일 비전-언어 모델(VLM) '엑사원(EXAONE) 4.5'를 공개했다. 자체 개발한 비전 인코더와 대형언어모델(LLM)을 단일 구조로 결합한 형태로, 기존 엑사원 시리즈를 확장한 버전이다.

엑사원(EXAONE) 로고. [사진=LG]
엑사원(EXAONE) 로고. [사진=LG]

이번 모델은 LG가 추진 중인 AI 파운데이션 모델 'K-엑사원'의 기능 확장을 위한 중간 단계 성격을 갖는다. 향후 음성·영상까지 처리 범위를 넓혀 물리 환경을 인식하고 판단하는 '피지컬 AI'로 발전시키는 것이 목표다.

성능 지표에서는 주요 경쟁 모델과 비교해 우위를 보였다. 시각 이해와 추론 능력을 평가하는 13개 벤치마크 평균 점수에서 오픈AI 지피티(GPT)-5 미니(mini)와 중국 알리바바 큐웬(Qwen3)-VL 등을 앞섰다. STEM(과학·기술·공학·수학) 관련 5개 평가에서도 평균 77점대를 기록해 주요 모델을 상회했다.

코딩 능력도 강화됐다. 엑사원 4.5는 라이브코드벤치 v6 기준 81.4점을 기록해 구글의 제미나이 젬마(Gemma) 4를 넘어섰다. 차트 해석 능력을 평가하는 ChartQA Pro에서도 62.2점을 기록하며 데이터 해석 영역에서 경쟁력을 확보했다.

엑사원(EXAONE) 로고. [사진=LG]
엑사원 4.5 글로벌 동급 모델들과의 STEM 벤치마크 성능 비교 [사진=LG]

모델 효율성도 개선됐다. 엑사원 4.5의 파라미터 규모는 330억 개로 기존 'K-엑사원' 대비 약 7분의 1 수준이지만, 텍스트 이해와 추론 성능은 유사한 수준을 유지했다. 하이브리드 어텐션 구조와 멀티 토큰 예측 기반 추론 기술이 적용된 결과다.

엑사원(EXAONE) 로고. [사진=LG]
엑사원 4.5와 엑사원 4.0 비교. [표=LG]

언어 지원 범위도 확대됐다. 한국어와 영어 외에 일본어, 독일어, 스페인어, 베트남어 등을 추가 지원한다. 산업 현장에서 활용도가 높은 계약서, 재무제표, 기술 문서 등의 해석 정확도를 높인 것도 특징이다.

LG AI연구원은 모델을 오픈 웨이트 형태로 공개했다. 글로벌 플랫폼 허깅페이스를 통해 연구·교육 목적에 한해 사용할 수 있도록 했다. 지난해 '엑사원 3.0'에 이어 두 번째 공개로, 생태계 확장을 염두에 둔 조치다.

향후에는 한국어와 문화 이해도를 높이는 방향으로 고도화가 진행된다. 지난 1월부터 동북아역사재단 등과 협력해 학습 데이터를 확보하고 있으며, 자체 위험 관리 체계를 기반으로 신뢰성과 표현력을 동시에 강화한다는 계획이다.

이진식 LG AI연구원 엑사원랩장은 "이번 모델은 시각 정보까지 통합 처리하는 단계로 넘어갔다는 점에 의미가 있다"며 "앞으로 산업 현장에서 실제 판단과 의사결정을 지원하는 AI로 발전시키겠다"고 말했다.

/권서아 기자(seoahkwon@inews24.com)



주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 LG, 멀티모달 AI '엑사원 4.5' 공개…문서·이미지 함께 읽고 추론

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S