엔비디아, 1분 길이 스토리텔링 가능한 동영상 생성 AI로 '톰과 제리' 제작 성공

SONOW /
기사 이미지

AI 동영상 생성의 새로운 돌파구, 1분 길이 애니메이션 생성.

엔비디아가 스탠포드대학교 연구진과 함께 개발한 새로운 AI 기술이 동영상 생성 분야의 한계를 뛰어넘었다. 지난 13일(현지시간) 공개된 '테스트-타임 훈련(Test-Time Training, TTT)' 기법은 1분 길이의 복잡한 이야기를 일관된 스타일로 풀어내는 데 성공했으며, 클래식 애니메이션 '톰과 제리'를 성공적으로 재현해 큰 주목을 받고 있다.

텍스트 기반 동영상 생성 기술은 최근 급속도로 발전하고 있지만, 긴 이야기 구조를 담아내는 데는 여전히 한계가 있었다. 오픈AI의 '소라(Sora)', 구글의 '비오(Veo)', 메타의 '무비 젠(Movie Gen)' 등 최신 확산 모델들은 대부분 20초 이내의 짧은 고화질 영상 제작에 그쳤다. 더 큰 문제는 영상 길이 자체보다 스토리 전개와 장면 간의 흐름을 얼마나 일관성 있게 유지할 수 있느냐는 점이었다.

이번 연구진이 개발한 TTT 기술의 혁신성은 단순히 영상의 길이를 늘린 것이 아니라, 복잡한 이야기 구조와 캐릭터의 일관성을 유지하면서도 자연스러운 스토리텔링을 가능하게 했다는 점에 있다. 이는 AI 생성 콘텐츠가 단순한 기술적 데모를 넘어 실제 엔터테인먼트 콘텐츠로 발전할 가능성을 시사한다.

엔비디아와 스탠포드대 연구진은 이 기술을 통해 클래식 애니메이션 '톰과 제리'의 스타일과 내러티브를 AI로 재현했다. 생성된 영상은 원작 애니메이션의 시각적 특징과 유머를 상당 부분 캡처하면서도 새로운 이야기 전개를 보여주어, AI 동영상 생성 기술의 새로운 가능성을 제시했다.

기존 기술의 한계를 극복한 혁신적 접근법.

이번 연구의 기술적 핵심은 '테스트-타임 훈련(TTT) 레이어'라는 독특한 접근법에 있다. 기존에는 맘바(Mamba), 델타넷(DeltaNet) 등 순환 신경망(RNN) 계열 모델을 통해 장기적인 시퀀스 생성 문제를 해결하려 했지만, 이러한 방식은 내부의 '숨겨진 상태(hidden state)'를 고정된 크기로 유지해야 한다는 제약이 있었다.

이는 마치 영화 한 편 분량의 내용을 엽서 한 장에 담으려는 것과 같아, 긴 내러티브를 생성할 때 중요한 내용이 누락되거나 일관성을 잃는 문제가 발생했다. 연구진이 개발한 TTT 레이어는 이 문제를 해결하기 위해 작고 유연한 신경망으로 구성된 적응형 메모리 시스템을 도입했다.

TTT 레이어의 가장 큰 특징은 영상이 생성되는 추론 과정 중에도 계속 스스로 학습(self-supervised learning)하며 맥락에 적응해 나간다는 점이다. 즉, 이전 장면의 맥락을 기억하고 다음 장면을 생성할 때 이를 참조함으로써 캐릭터의 행동, 장면 간 연결, 이야기의 흐름을 실시간으로 파악하며 일관된 스토리 구조를 유지할 수 있게 된다.

이번 연구는 AI가 생성한 영상이 단순히 짧은 클립을 넘어 하나의 완결된 이야기를 담을 수 있다는 가능성을 보여주었다. 영상이 흘러갈수록 AI 모델의 이해도와 표현력이 함께 성장하는 방식은 장기적인 내러티브 생성에 새로운 패러다임을 제시한다.

연구진은 이 TTT 레이어를 기존에 사전 학습된 트랜스포머 모델에 통합했고, 그 결과 텍스트로 구성된 스토리보드를 바탕으로 최대 1분 길이의 애니메이션 영상 생성에 성공했다. 실험 결과, TTT 기법을 적용한 모델은 기존의 맘바 2(Mamba 2), 게이티드 델타넷(Gated DeltaNet), 슬라이딩 윈도우 어텐션(Sliding Window Attention) 방식과 비교해 더 복잡하고 자연스러운 이야기 흐름을 표현하는 데 뛰어난 성능을 보였다.

기술 발전에 대한 기대와 우려가 공존하는 대중 반응.

이번 연구에서 생성된 AI 버전의 '톰과 제리' 영상은 SNS와 유튜브 등 인터넷상에서 큰 반향을 일으켰다. 기술적 성과에 대한 기대와 예술적 가치 훼손에 대한 우려가 동시에 나타났다. 일부는 AI의 기술적 성과에 감탄하며 "놀라운 진전", "원작을 현대적으로 재해석했다"고 평가했다.

100개 영상에 대한 인간 평가에서 TTT 모델은 기존 기법들보다 평균 34 포인트 높은 점수를 기록하며 질적 우수성을 입증했다. 이는 AI 생성 콘텐츠가 단순한 기술 데모를 넘어 실제 시청자들의 관심을 끌 수 있는 엔터테인먼트 콘텐츠로 발전할 가능성을 보여준다.

반면, AI가 예술을 훼손하고 있다는 비판적 반응도 적지 않았다. "원작이 더 낫다"나 "별로 웃기지도 않는다. 오리지널이 최고"와 같은 반응이 있는가 하면, "진짜 애니메이터들이 무덤 속에서 뒤척일 듯"이나 "기술은 좋지만 장인 정신이 사라지고 있다"라는 비판도 이어졌다. 이러한 반응은 기술 발전과 예술적 가치 사이의 긴장 관계를 보여준다.

이번 연구가 주목받는 또 다른 이유는 연구진이 기술 구현 코드를 깃허브에 공개해 누구나 접근할 수 있도록 했다는 점이다. 이는 AI 영상 생성 기술이 소수 대기업에 의해 독점되지 않고 더 넓은 커뮤니티에 의해 발전될 수 있는 가능성을 열었다는 점에서 의미가 있다.

앞으로 이 기술이 영화, 광고, 교육 콘텐츠 등 다양한 분야에 어떻게 적용될지, 그리고 창작자들의 저작권과 관련된 문제는 어떻게 해결될지 주목된다. 일각에서는 AI 생성 콘텐츠가 인간 창작자의 일자리를 위협할 수 있다는 우려가 있지만, 다른 한편으로는 새로운 형태의 협업과 창작 도구로서의 가능성도 제시되고 있다.

SONOW /
#엔비디아 #동영상생성AI #톰과제리 #테스트타임훈련 #AIanimation