
출처 : SONOW
Genie 3 공개와 기술적 배경
구글 딥마인드는 2025년 8월, Genie 3를 공개하며 세계 모델(World Model) 분야에 새로운 이정표를 세웠다. 해당 모델은 텍스트 프롬프트를 기반으로 720p 해상도·24fps의 실시간 환경을 생성하고, 최소 1분 이상 물리·시각적 일관성을 유지한다. 이는 정적 환경 중심이던 Genie 1·2에서 한 단계 진화한 성과다.
딥마인드는 수년간 게임·로봇·개방형 학습 환경 시뮬레이션을 연구하며 AGI(범용 인공지능)로 가는 기반을 다져왔다. Genie 3는 이러한 경험을 토대로, 단순 비디오 생성이 아닌 ‘상호작용 가능한 세계’를 구현하는 데 초점을 맞췄다.
기술적 차별성
Genie 3의 가장 큰 특징은 실시간 상호작용성과 장기 일관성이다. 사용자가 이전에 방문한 장소를 다시 찾으면 동일한 환경을 재현하며, 이동·행동에 따른 변화가 즉시 반영된다. 이는 오토리그레시브 프레임 생성 시 수 초~수 분 전 정보를 참조하는 메모리 구조 덕분이다.
또한 물, 빛, 기상, 지형 등 복잡한 물리 속성을 정밀하게 재현하며, 환경 내 객체 간 상호작용까지 반영한다. NeRF·Gaussian Splatting 등 기존 기술이 정적 3D 기반에 의존하는 것과 달리, Genie 3는 매 프레임을 동적으로 생성한다.
응용 분야와 잠재력
Genie 3는 AI 에이전트 훈련, 게임·콘텐츠 제작, 가상 관광, 재난 대응 훈련 등 다양한 산업에 적용 가능하다. 특히 Promptable World Events 기능을 통해 날씨 변화, 객체 생성, 환경 변형을 텍스트로 즉시 반영할 수 있어 학습 및 창작의 폭을 크게 넓힌다.
전망과 과제
Genie 3는 AGI 연구와 몰입형 시뮬레이션 산업에서 중요한 전환점이 될 것으로 전망된다. 다만 장시간 시뮬레이션에서의 물리 정확성, 메모리 지속성 확대, 초고해상도 지원 등은 향후 개선이 필요한 영역이다.
이번 공개는 AI가 분석 단계를 넘어, 새로운 경험을 창조하는 ‘세계 창조자’로 진화하고 있음을 보여준다.