[아이뉴스24 김종성 기자] 글로벌 빅테크들이 앞다퉈 인공지능(AI) 비서 서비스를 내세우며 AI 플랫폼 패권 다툼이 치열해지고 있다.
그동안 텍스트 위주로 AI 기능을 수행했다면, 이제는 이미지, 오디오, 비디오 등 다양한 데이터를 학습한 멀티모달(다중모델) 기술을 앞세운 경쟁이 본격화하고 있다.
18일 업계에 따르면 구글은 최근 열린 '구글 연례 개발자회의(I/O) 2024'에서 자사의 생성형 AI '제미나이(Gemini)' 기반의 멀티모달(다중모델) AI 비서 '프로젝트 아스트라(Project Astra)'를 공개했다. 구글의 '아스트라'는 AI가 사람처럼 보고 들을 수 있어 음성으로 대화하면서 이용자의 개인 비서 역할을 한다.
구글이 공개한 '아스트라' 시연 영상을 보면, 이용자가 카메라를 통해 사물을 보여주고 음성으로 명령하면 아스트라가 대화하듯 그에 대한 답을 내놓는다. 오디오와 이미지, 영상, 텍스트 등 다양한 데이터를 처리할 수 있는 멀티모달 AI를 구현했다.
데미스 허사비스 구글 딥마인드 최고경영자(CEO)는 "우리는 오랫동안 일상 생활에서 도움이 될 수 있는 범용(universal) AI 에이전트를 만들고 싶었다"며 "휴대전화나 안경과 같은 폼팩터를 통해 전문(expert) 비서를 곁에 둘 수 있는 미래를 쉽게 상상할 수 있다"고 강조했다. 구글은 올해부터 제미나이 앱과 자사 제품 전반에 걸쳐 아스트라의 기능을 추가할 계획이다.
'챗GPT'를 세상에 내놓으며 전 세계적으로 생성형 AI 열풍을 불러일으킨 오픈AI도 사람처럼 보고 듣고 말하는 새로운 AI 모델 'GPT-4o(GPT-포오)'를 공개했다. 'GPT-4o'는 주로 텍스트를 통해 대화했던 기존 AI 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있다. 실시간 통역을 제공할 뿐만 아니라 휴대전화 카메라 렌즈로 이용자의 감정을 파악해 목소리를 바꾸며 대화를 한다. 사람과 AI 모델 간 다자 대화도 가능하다.
오픈AI는 애플과 손잡고 AI 플랫폼 선점에 나섰다. 우선 맥(mac) 운영체제(OS)용 'GPT-4o'앱을 출시했고, 점차 광범위하게 사용할 수 있도록 할 예정이다. 아울러 아이폰에서도 사용 가능할 전망이다. 애플이 다음 달 여는 '연례 개발자 회의(WWDC24)'에서 음성 비서 '시리'에 'GPT-4o'를 적용한 새로운 AI 비서 서비스를 선보일 것으로 예상된다.
삼성전자도 한 단계 진화한 AI 비서 서비스를 준비 중이다. 한종희 삼성전자 디바이스경험(DX) 부문장(부회장)은 거대언어모델(LLM) 기반의 생성형 AI를 7월부터 음성 비서 '빅스비'에 도입하겠다고 밝힌 바 있다. '빅스비'는 지난 2017년 '갤럭시 S8' 스마트폰부터 적용했고, 이후 스마트폰, TV, 가전 등에 탑재됐다.
다만 생성형 AI 빅스비는 기기 규모가 커 소형화 제약이 없는 가전 제품에 우선 탑재될 전망이다. 스마트홈을 통해 사람과 대화하듯이 자연스럽게 음성으로 가전 제품을 제어할 수 있게 된다. 한 부회장은 "지금 가전이 '에어컨 온도 맞춰줘' 정도의 명령을 수행했다면, 앞으로는 '나 외출할 거야'라고 말하면 AI가 제품을 알아서 꺼주는 수준으로 발전할 것"이라고 설명했다.
삼성전자가 생성형 AI 빅스비의 모바일 기기 적용에 속도를 낼 지 주목된다. 현재는 '갤럭시 S24' 시리즈에 탑재된 '갤럭시 AI' 일부 기능에 빅스비를 통한 음성 제어가 가능하다. '빅스비'에 갤럭시 AI를 연동해 음성 명령만으로 △실시간 통역 △노트 어시스트 △전화 어시스트 △브라우징 어시스트 등을 이용할 수 있다.
실시간 통역 어시스트를 사용할 때는 "마이클에게 영화로 전화해 줘"라고 말하면 통화가 영어로 실시간 번역되고, 맞춤법 교정이나 웹 페이지 요약 등도 음성으로 기능을 사용할 수 있다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기