
출처 : SONOW
알리바바가 멀티모달 AI 모델 'Wan 2.5'를 공개했다. 텍스트, 이미지, 영상, 오디오를 동시에 이해하고 생성하는 네이티브 멀티모달 모델로, 1080p 영상에 음성·효과음까지 동기화 가능하다. 구글의 Veo 3보다 1/4 가격으로 제공되며, 정식 오픈소스는 추후 발표 예정이다.
Wan 2.5, 텍스트·이미지·영상·오디오 네이티브 통합 처리
Wan 2.5는 알리바바가 개발한 차세대 멀티모달 AI 모델로, 텍스트, 이미지, 영상, 오디오를 단일 시스템에서 통합 처리한다. 기존 멀티모달 모델들이 각 모달리티를 별도로 처리한 후 결합하는 방식이었다면, Wan 2.5는 처음부터 모든 모달리티를 동시에 이해하고 생성하도록 설계된 네이티브 멀티모달 아키텍처를 채택했다. 이를 통해 텍스트 프롬프트로부터 이미지, 영상, 배경음악, 효과음, 내레이션까지 일관성 있게 생성할 수 있으며, 각 요소 간의 자연스러운 동기화가 가능하다.
1080p 고화질 영상 생성, 음성·효과음 완벽 동기화
Wan 2.5는 최대 1080p 해상도의 고화질 영상을 생성할 수 있으며, 영상 내용에 맞는 음성과 효과음을 자동으로 생성하여 완벽하게 동기화한다. 예를 들어 해변에서 파도가 부서지는 장면을 요청하면, 영상뿐만 아니라 파도 소리, 갈매기 울음소리, 바람 소리 등을 실시간으로 생성하여 몰입감 있는 콘텐츠를 만들어낸다. 또한 인물이 등장하는 영상에서는 립싱크가 정확하게 맞춰진 음성을 생성할 수 있어, 더빙이나 광고 제작 등에 활용도가 높다. 알리바바는 이 모델을 구글의 Veo 3보다 1/4 가격으로 제공하여 가격 경쟁력까지 확보했다.
오픈소스 공개 예정, 멀티모달 AI 생태계 확장 기대
알리바바는 Wan 2.5의 정식 오픈소스 버전을 추후 공개할 계획이라고 밝혔다. 이는 연구자와 개발자 커뮤니티가 모델을 자유롭게 활용하고 개선할 수 있는 기회를 제공하며, 멀티모달 AI 기술의 발전을 가속화할 것으로 기대된다. 오픈소스 공개는 또한 알리바바가 AI 생태계에서 주도적 역할을 하려는 전략의 일환으로 해석된다. 멀티모달 AI 시장은 메타의 Chameleon, 구글의 Gemini, 오픈AI의 GPT-4V 등이 경쟁하고 있으며, 알리바바의 Wan 2.5는 가격 경쟁력과 통합 기능으로 차별화를 시도하고 있다. 향후 영화, 광고, 게임, 교육 등 다양한 분야에서 멀티모달 콘텐츠 제작이 더욱 용이해질 전망이다.