Gemini Robotics 1.5를 탑재한 로봇 작동 장면

출처 : SONOW

구글이 'Gemini Robotics 1.5'와 'ER 1.5'를 공개했다. 이 모델들은 로봇이 직접 사고하고 계획하며 현실 세계에서 복잡한 작업을 수행할 수 있도록 설계된 물리적 AGI(Artificial General Intelligence)의 시작점으로 평가받고 있다. 이는 AI가 디지털 세계를 넘어 물리적 세계로 본격 진출하는 중요한 이정표다.

Gemini Robotics 1.5, 로봇의 자율적 사고와 계획 능력 구현

Gemini Robotics 1.5는 구글의 대형 언어 모델 Gemini를 로봇 공학에 특화시킨 버전이다. 이 모델은 로봇이 단순히 사전 프로그래밍된 명령을 따르는 것이 아니라, 주어진 목표를 이해하고 달성하기 위한 단계를 스스로 계획하며, 예상치 못한 상황에서도 적절히 대응할 수 있도록 설계되었다. 예를 들어 저녁 식사를 준비해줘라는 명령을 받으면, 재료를 확인하고, 조리 순서를 계획하며, 필요한 도구를 찾아 사용하는 전 과정을 자율적으로 수행할 수 있다.

ER 1.5 모델, 현실 세계 복잡한 환경 이해 및 상호작용

함께 공개된 ER(Embodied Reasoning) 1.5 모델은 로봇이 현실 세계의 복잡한 환경을 이해하고 상호작용하는 능력을 크게 향상시킨다. 이 모델은 시각, 촉각, 위치 정보 등 다양한 센서 데이터를 통합하여 3차원 공간을 정확히 인식하고, 물체의 속성과 관계를 파악하며, 물리 법칙을 고려한 행동을 계획한다. 예를 들어 무거운 물체를 옮길 때 적절한 그립을 선택하고, 장애물을 피하며, 균형을 유지하는 등의 복잡한 작업을 수행할 수 있다.

물리적 AGI 시대 개막, 산업 전반 혁신 예고

구글의 이번 발표는 AI가 소프트웨어 영역을 넘어 물리적 세계에서 범용적 지능을 발휘하는 시대의 개막을 알린다. 제조업, 물류, 의료, 가사 서비스 등 다양한 분야에서 로봇의 역할이 크게 확대될 것으로 예상된다. 특히 고령화 사회에서 독립적 생활을 지원하는 케어 로봇, 위험한 환경에서 작업하는 산업용 로봇 등의 수요가 급증할 것으로 전망된다. 다만 로봇의 자율성 증가에 따른 안전성, 윤리적 문제, 일자리 대체 우려 등은 해결해야 할 과제로 남아있다.