IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

문자·음성·이미지 동시에 이해하고 답변⋯카카오, 멀티모달 2종 성능 공개

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

통합 멀티모달 언어모델 고도화⋯이미지 기반 검색 핵심 기술 성능도 공개

[아이뉴스24 정유림 기자] 카카오는 문자와 음성, 이미지 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 멀티모달 인공지능(AI) 기술 연구 성과를 12일 공개했다.

[사진=카카오]
[사진=카카오]

이날 카카오는 자사 기술 블로그를 통해 한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델인 '카나나-오'와 멀티모달 임베딩(복잡한 데이터를 컴퓨터가 이해할 수 있는 숫자의 나열(벡터)로 변환하는 기술) 모델 '카나나-v-임베딩' 개발 과정과 성능을 발표했다.

앞서 지난 5월 처음 성능을 공개한 카나나-오는 문자와 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다. 기존 모델들이 문자 입력 시 강점을 보이지만 음성 대화 시에는 답변이 다소 단순해지고 추론 능력이 떨어진다는 한계에 주목해 개발한 것이다.

카카오는 그러한 한계를 보완하기 위해 카나나-오의 지시 이행 능력을 고도화해 이용자의 숨은 의도와 복잡한 요구 사항까지 파악할 수 있도록 했다. 자체 구축한 데이터셋으로 학습을 진행해 다양한 모달리티(양식)의 입출력에 대해서도 기존 언어모델의 성능을 유지하고 단순 질의응답을 넘어 요약, 감정과 의도 해석, 오류 수정, 형식 변환, 번역 등 다양한 과업을 수행할 수 있도록 성능을 끌어올렸다.

고품질 음성 데이터와 직접 선호 최적화(DPO) 기술을 적용해 억양·감정·호흡 등을 정교하게 학습시켜 기쁨·슬픔·분노·공포 등 상황별 생생한 감정을 비롯해 미세한 음색·어조 변화 등에 따른 감정 표현 능력까지 높였다. 호스트와 게스트가 대화를 주고받는 팟캐스트 형태의 데이터셋을 구축해 끊김 없이 자연스럽게 이어지는 '멀티턴' 대화도 가능해졌다.

카카오에 따르면 벤치마크 평가 결과, 카나나-오는 영어 음성 성능에서 GPT-포오(4o)와 유사한 수준, 한국어 음성 인식·합성, 감정 인식 능력에서 높은 수준을 기록했다. 카카오는 향후 더 자연스러운 동시 대화와 상황에 맞는 사운드스케이프(소리환경)를 실시간 생성할 수 있는 진화된 모델로 발전시킬 계획이다.

[사진=카카오]
[사진=카카오]

또 다른 모델인 카나나-v-임베딩은 이미지 기반 검색의 핵심 기술로, 문자로 이미지를 검색하거나 이용자가 선택한 이미지와 관련된 정보를 검색하고 이미지가 포함된 문서 검색 등을 지원한다.

이 모델은 실제 서비스 적용을 목표로 개발됐다. 경복궁, 붕어빵 같은 고유명사는 물론, 오타가 포함된 단어도 문맥을 파악해 정확한 이미지를 찾아준다. '한복 입고 찍은 단체 사진'처럼 복합적인 조건도 정확히 이해해 조건의 일부에만 해당하는 사진을 걸러낼 수 있는 변별력을 갖췄다.

카나나-v-임베딩 모델은 현재 카카오 내부에서 광고 소재의 유사도를 분석·심사하는 시스템에 적용돼 있다. 향후 비디오나 음성으로 범위를 확대해 더 다양한 서비스에도 적용할 계획이다.

이밖에 카카오는 언어모델 카나나-1.5를 기반으로 온디바이스(기기 자체에서 AI 실행) 환경에서 동작할 수 있는 멀티모달 모델의 경량화 연구를 진행 중이다. 전문가 혼합(MoE) 구조를 적용한 고성능·효율 모델 '카나나-2' 개발도 준비하고 있다.

김병학 카카오 카나나 성과리더는 "카카오의 자체 AI 모델 카나나는 단순한 정보 나열 수준을 넘어 이용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있도록 한국적 맥락의 이해와 표현력을 높여가고자 한다"며 "실제 서비스 환경을 통해 일상 속 AI 기술 경험을 만들어 나가고 사람처럼 상호작용할 수 있는 AI 구현에 주력해 갈 것"이라고 밝혔다.

/정유림 기자(2yclever@inews24.com)




주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 문자·음성·이미지 동시에 이해하고 답변⋯카카오, 멀티모달 2종 성능 공개

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S