[아이뉴스24 박준표 기자] 한국기술교육대학교 컴퓨터공학부 전강욱 교수 연구팀이 한국전자통신연구원·전북대학교와 함께 초대규모 다차원 데이터를 제한된 메모리 환경에서도 안정적으로 처리할 수 있는 분석 기술을 개발했다.
인공지능, 추천시스템, 과학계산 등에서 다차원 데이터 분석 수요가 커지는 가운데 대규모 데이터 처리 과정에서 발생하는 메모리 부족과 데이터 쏠림 문제를 완화한 연구 성과다.
한국기술교육대는 전 교수 연구팀이 초대규모 텐서 데이터를 효율적으로 처리하는 그래픽처리장치(GPU)·저장장치 협업 기반 터커 분해 기술을 개발했다고 18일 밝혔다. 텐서는 데이터를 여러 차원의 배열 형태로 구조화한 것을 말한다. 터커 분해는 복잡한 다차원 데이터를 작게 나눠 분석하는 대표적인 기법이다.

그동안 터커 분해는 다차원 데이터의 숨은 구조를 파악하는 핵심 기술로 활용돼 왔다. 하지만 데이터 규모가 커질수록 메모리 사용량이 급격히 늘고 특정 구간에 데이터가 몰리는 현상 때문에 병렬 처리 효율이 떨어지는 한계가 있었다.
연구팀은 이 문제를 해결하기 위해 데이터 분포의 쏠림 특성을 반영한 다단계 분할 기법과 그래픽처리장치·저장장치 협업 실행 구조를 결합했다. 이를 바탕으로 새로운 터커 분해 기술인 ‘GSP-터커’를 제안했다.
GSP-터커는 대규모 희소 텐서를 여러 단계로 나눈 뒤, 그래픽처리장치 연산과 저장장치 기반 데이터 처리를 함께 수행하도록 설계됐다. 필요한 데이터만 차례로 불러와 처리하는 방식도 적용했다. 대규모 중간 결과를 한꺼번에 메모리에 올리지 않아도 돼, 메인 메모리와 그래픽처리장치 메모리 사용량을 줄일 수 있다는 게 연구팀의 설명이다.
기존 기술은 대규모 데이터셋에서 메모리 부족으로 실행에 실패하거나 데이터 쏠림이 심한 구간에서 처리 속도가 크게 떨어지는 문제가 있었다. 반면 GSP-터커는 데이터의 불균형 분포를 고려해 연산 단위를 구성함으로써 처리 안정성을 높였다.
실험 결과에서도 GSP-터커는 기존 최신 터커 분해 기술이 메모리 부족이나 실행 실패를 보인 대규모 데이터셋에서 안정적으로 작동했다. 메모리 사용량과 실행 성능 측면에서도 개선 효과를 보였다. 연구팀은 이 기술이 단일 장비 환경에서도 초대규모 텐서 데이터를 처리할 수 있는 가능성을 보여준 성과라고 설명했다.
이번 연구는 한국기술교육대학교, 한국전자통신연구원, 전북대학교 연구팀의 공동연구로 진행됐다. 공동 주저자는 한국기술교육대학교 컴퓨터공학부 석박사통합과정 송승현 학생과 한국전자통신연구원 이지혜 박사다. 전강욱 한국기술교육대 교수와 김찬기 전북대 교수가 공동 교신저자로 참여했다.
전 교수는 “이번 연구는 초대규모 비정형 텐서 데이터 분석에서 큰 병목으로 꼽히는 메모리 한계와 데이터 쏠림 문제를 함께 완화할 수 있는 실행 기술을 제시했다는 점에서 의미가 있다”며 “추천시스템, 지식그래프 분석, 과학계산, 대규모 인공지능 데이터 처리 등 다양한 분야로 확장될 수 있을 것”이라고 말했다.
연구 논문은 데이터베이스 분야 주요 국제학술대회인 ‘국제 데이터공학 학술대회 2026’에 채택됐다. 연구팀은 지난 4일부터 8일까지 캐나다 몬트리올에서 열린 학술대회에서 관련 연구 결과를 발표했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기