엔비디아, '테스트-타임 훈련' 기술로 1분짜리 AI '톰과 제리' 애니메이션 제작 성공

SONOW /
기사 이미지

동영상 생성 AI의 한계 극복하는 새로운 기술 개발.

엔비디아와 스탠포드대학교 연구진이 긴 이야기 구조를 담아내는 동영상 생성 인공지능(AI) 기술의 한계를 극복하는 혁신적인 방법을 선보였다. 13일(현지시간) 공개된 '테스트-타임 훈련(Test-Time Training, TTT)' 기법은 트랜스포머 아키텍처를 활용해 1분 분량의 멀티 샷 동영상을 일관성 있게 생성할 수 있는 기술이다. 이 기술을 활용해 제작된 클래식 애니메이션 '톰과 제리'의 AI 버전은 원작의 캐릭터와 스토리텔링을 놀라운 수준으로 재현해내며 기술의 발전 가능성을 확실히 보여주었다.

기존의 텍스트 기반 동영상 생성 기술은 꾸준히 발전해 왔지만, 긴 서사를 담아내는 데에는 여전히 명확한 한계가 존재했다. 오픈AI의 '소라(Sora)', 구글의 '비오(Veo)', 메타의 '무비 젠(Movie Gen)' 등 현존하는 최신 확산 모델들은 짧은 고화질 영상 제작에는 성공했으나, 대부분의 클립은 20초를 넘기지 못하는 한계를 보였다. 더 중요한 문제는 단순한 영상 길이가 아니라, 스토리 전개와 장면 간의 흐름을 얼마나 일관성 있게 유지할 수 있느냐는 점이었다. 생성된 영상이 길어질수록 캐릭터와 배경이 변형되거나, 이야기의 맥락이 흐트러지는 현상이 빈번하게 발생했다.

이러한 문제를 해결하기 위해 AI 연구 커뮤니티에서는 맘바(Mamba), 델타넷(DeltaNet) 등 순환 신경망(RNN) 계열 모델을 활용하는 시도가 있어왔다. 그러나 이러한 방식은 내부의 '숨겨진 상태(hidden state)'를 고정된 크기로 유지해야 한다는 근본적인 제약이 있었다. 이는 마치 영화 한 편의 내용을 엽서 한 장에 담으려는 것과 같아서, 긴 이야기를 담기에는 정보량이 부족하다는 치명적인 단점이 있었다. 결과적으로 이야기가 길어질수록 캐릭터의 일관성이나 서사의 연속성이 급격히 저하되는 문제가 발생했다.

실시간 학습하는 TTT 레이어의 혁신적 접근법.

이번 연구의 핵심은 기존 방식의 한계를 뛰어넘는 '테스트-타임 훈련(TTT) 레이어'의 개발이다. 연구진은 숨겨진 상태를 작고 유연한 신경망으로 구성한 TTT 레이어를 설계했는데, 이 레이어의 가장 큰 특징은 영상이 생성되는 추론 과정 중에도 계속해서 스스로 학습(self-supervised learning)하며 맥락에 적응해 나간다는 점이다. 이는 기존의 고정된 파라미터 모델과는 근본적으로 다른 접근 방식이다.

TTT 레이어는 영상이 생성되는 동안 캐릭터의 행동, 장면 간 연결, 이야기의 흐름을 실시간으로 파악하며 일관된 이야기 구조를 유지할 수 있게 해준다. 쉽게 말해, 영상이 흘러갈수록 AI 모델의 이해도와 표현력이 함께 성장하는 셈이다. 이는 인간이 이야기를 들으면서 계속해서 맥락을 이해하고 예측하는 과정과 유사한 접근법으로, 보다 자연스러운 서사 구조의 생성을 가능하게 한다.

연구진은 이 TTT 레이어를 기존에 사전 학습된 트랜스포머 모델에 통합했고, 그 결과 텍스트로 구성된 스토리보드를 바탕으로 최대 1분 길이의 애니메이션 영상 생성에 성공했다. 기술 검증을 위해 고전 애니메이션 '톰과 제리' 시리즈를 바탕으로 특별히 큐레이션한 데이터셋을 활용했으며, 실험 결과는 기존 접근법들을 크게 뛰어넘는 성과를 보여주었다.

TTT 레이어는 영상이 생성되는 추론 과정 중에도 계속 스스로 학습하며 맥락에 적응해 나간다. 이를 통해 캐릭터의 행동, 장면 간 연결, 이야기의 흐름을 실시간으로 파악하며 일관된 이야기 구조를 유지할 수 있게 된다.

기술적 성과와 예술적 논쟁을 불러일으킨 AI '톰과 제리'.

연구팀의 TTT 레이어를 적용한 모델은 기존의 맘바 2(Mamba 2), 게이티드 델타넷(Gated DeltaNet), 슬라이딩 윈도우 어텐션(Sliding Window Attention) 방식과 비교 테스트에서 압도적인 성능을 보였다. 특히 복잡하고 자연스러운 이야기 흐름을 표현하는 능력에서 두드러진 우위를 보였으며, 실제로 100개 영상에 대한 인간 평가자들의 검증에서 평균 34 포인트 높은 점수를 기록하며 기존 기법들을 크게 앞섰다. 연구진은 이 기술의 구현 코드를 깃허브에 공개해 누구나 접근할 수 있도록 했으며, 이는 동영상 생성 AI 기술의 학문적 발전을 위한 개방적 접근을 보여준다.

이번에 생성된 AI 버전의 '톰과 제리' 영상은 소셜 미디어와 유튜브 등 인터넷상에서 큰 주목을 받았다. 기술적 측면에서 많은 이들이 "놀라운 진전"이라며 찬사를 보냈고, "원작을 현대적으로 재해석했다"는 긍정적 평가가 이어졌다. 특히 캐릭터의 움직임과 표정, 배경의 일관성, 그리고 전체 이야기 흐름의 자연스러움은 기존 AI 동영상 생성 기술과 확연한 차이를 보이며 기술 커뮤니티에 신선한 충격을 주었다.

그러나 이러한 기술적 성과에 대한 찬사와 함께, AI가 예술 분야를 침범하고 있다는 우려의 목소리도 적지 않게 제기되었다. "원작이 더 낫다"나 "별로 웃기지도 않는다. 오리지널이 최고"와 같은 반응이 있는가 하면, "진짜 애니메이터들이 무덤 속에서 뒤척일 듯"이나 "기술은 좋지만 장인 정신이 사라지고 있다"라는 비판적 의견도 많았다. 이는 AI 기술의 발전이 창작 산업에 가져올 변화와 그 영향에 대한 사회적 논의가 계속해서 필요함을 시사한다.

엔비디아의 이번 연구 성과는 AI 기반 동영상 생성 기술이 단순한 짧은 클립 제작을 넘어 보다 복잡하고 긴 서사를 담아내는 방향으로 발전하고 있음을 보여준다. 향후 이 기술이 어떻게 영화, 애니메이션, 게임 등 다양한 미디어 산업에 적용될지, 그리고 이로 인해 콘텐츠 창작의 패러다임이 어떻게 변화할지 주목할 필요가 있다.

SONOW /
#엔비디아 #톰과제리 #AI애니메이션 #동영상생성AI #TTT기술 #스토리텔링AI