알리바바 클라우드, AI 비디오 생성 모델 'Wan2.1' 오픈소스 공개

입력 2025.02.27 오전 9:48

본문 글자 크기 설정

글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

VBench리더보드 1위…움직임·공간적 관계·색상 표현 등 높은 평가

[아이뉴스24 윤소진 기자] 알리바바 클라우드는 인공지능(AI) 기반 영상 생성 모델 ‘Wan2.1’을 오픈소스로 무료 공개한다고 27일 밝혔다.

Wan2.1 시리즈는 VBench리더보스 종합 점수 86.22%를 기록했다. [사진=알리바바 클라우드]

알리바바 클라우드는 비디오 파운데이션 모델 ‘Tongyi Wanxiang(통이 완샹)’의 최신 버전인 Wan2.1 시리즈 중 140억(14B) 및 13억(1.3B) 매개변수 모델 4종을 오픈소스로 공개하며, AI 기술의 개방성과 확장성을 더욱 강화해 나간다.

이번에 공개된 모델은 T2V-14B, T2V-1.3B, I2V-14B-720P, I2V-14B-480P 등 4종으로, 텍스트 및 이미지 입력을 기반으로 고품질 이미지와 영상을 생성하도록 설계됐다. 이 모델들은 알리바바 클라우드의 AI 모델 커뮤니티인 ‘모델스코프(ModelScope)’와 협업형 AI 플랫폼 ‘허깅페이스(Hugging Face)’에서 다운로드 가능하며, 전 세계 학계 연구자 및 기업들이 자유롭게 활용할 수 있도록 공개됐다.

T2V-14B 모델은 복잡한 동작이 포함된 고품질 영상 생성에 최적됐으며, T2V-1.3B 모델은 생성 품질과 연산 효율성의 균형을 맞춰 연구 및 2차 개발 작업을 진행하는 다양한 개발자들에게 이상적인 솔루션을 제공한다.

I2V-14B-720P와 I2V-14B-480P 모델은 텍스트 기반 영상 생성뿐만 아니라 이미지 기반 영상 생성 기능까지 지원한다.

올해 초 공개된 Wan2.1 시리즈는 중국어와 영어에서 텍스트 효과를 지원하는 최초의 AI 영상 생성 모델로 복잡한 움직임을 정밀하게 처리하고, 픽셀 품질을 향상시키며, 물리적 원칙을 준수하며, 명령 실행 정확도를 최적화하는 등 사실적인 영상 생성 능력에서 강점을 발휘한다.

Wan2.1은 영상 생성 모델의 종합 벤치마크인 VBench리더보드에서 1위를 기록했다. 허깅페이스의 VBench 리더보드 상위 5개 모델 중 유일한 오픈소스 영상 생성 모델이다.

VBench에 따르면, Wan2.1 시리즈는 종합 점수 86.22%를 기록하며, 움직임의 자연스러움, 공간적 관계, 색상 표현, 다중 객체 상호작용 등 핵심 평가 항목에서 최고 수준의 성능을 입증했다.

알리바바 클라우드는 "영상 생성 AI 모델을 훈련하려면 막대한 컴퓨팅 자원과 대량의 고품질 학습 데이터가 필수적"이라며 "이러한 모델을 오픈소스로 개방하면 AI 활용의 장벽을 낮출 수 있으며, 기업들은 보다 효율적이고 경제적인 방식으로 자사 비즈니스에 최적화된 고품질 영상 콘텐츠를 제작할 수 있다"고 설명했다.

/윤소진 기자(sojin@inews24.com)