[아이뉴스24 김국배 기자] 최근 인공지능(AI) 분야에서 가장 뜨거운 주제 중 하나는 자연어 처리(NLP)다.
그 중심에는 지난 2018년 구글이 내놓은 NLP 모델인 '버트(BERT)'가 있다. 자연어(텍스트)를 기계가 이해할 수 있는 고차원의 벡터로 바꿔주는 것이 버트의 역할이다.
이현제 삼성SDS AI코어랩 프로는 12일 삼성SDS가 온라인으로 개최한 개발자 콘퍼런스 '테크토닉'에서 "한국어 모델 연구에도 버트가 많은 영향을 끼치고 있다"고 말했다.
실제로 SK텔레콤(KoBERT·코버트), 서울대(KR-버트), 한국전자통신연구원(ETRI-버트) 모두 한국어 모델 개발에 버트를 사용하고 있을 정도다.
그는 이런 버트의 성공요인으로 '전이 학습'을 꼽았다. 전이 학습은 한 과제에서 배운 지식이 다른 과제의 학습에 전이되는 것을 말한다. 가령 개와 고양이를 분류하는 모델을 멸종 위기종을 분류하는 모델로 재사용하는 것이다.
이현제 프로는 "언어 영역에서 전이 학습은 언어의 기본 구조를 파악할 수 있는 태스크(task)로 학습을 진행한다"고 설명했다. 가령 '다음 괄호 안에 들어갈 알맞은 말은?'과 같이 양방향의 문맥을 파악해야 풀 수 있는 문제로 사전 학습을 진행한 뒤 특정 업무에 맞게 미세 조정하는 식이다.
삼성SDS도 '코리알버트(KoreALBERT)'를 개발하고 있다. 코리알버트는 위키피디아, 뉴스, 책 줄거리 요약 등 약 43기가바이트(GB) 규모의 데이터를 학습했다. 다른 모델들보다 상대적으로 크기는 작으면서 성능을 높인 게 특징. 모델이 커질수록 더 많은 컴퓨팅 파워가 요구되기 때문에 비용이 커지게 된다.
그는 "코리알버트는 버트 대비 모델 크기가 약 10분의 1인 구글 '알버트' 아키텍처를 사용했다"며 "학습 방법은 빈칸 단어 맞추기, 토큰 순서 맞추기, 문장 순서 맞추기 등 세 가지"라고 설명했다.
이어 "네 가지 모델 사이즈 중 제일 작은 사이즈는 작은 그래픽처리장치(GPU)로도 학습이 가능한 수준"이라고 덧붙였다.
최근 삼성SDS는 한국어 기계독해 평가 대회에서 1위를 차지하기도 했다. 삼성SDS 역시 추가 데이터셋을 통한 전이학습이 성능을 개선한 요인 중 하나였다. 삼성SDS는 조만간 코리알버트를 오픈소스 커뮤니티인 깃허브에 공개할 예정이다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기