바이트댄스 AI 에이전트 UI-TARS-1.5, 게임·GUI 작업에서 주요 경쟁사 압도

강화학습으로 스스로 사고하는 AI 에이전트의 탄생.

틱톡(TikTok)의 모회사 바이트댄스(ByteDance)가 멀티모달 오픈소스 에이전트인 'UI-TARS-1.5'를 발표하며 AI 에이전트 기술의 새로운 장을 열었다. UI-TARS는 게임 플레이와 그래픽 사용자 인터페이스(GUI) 작업을 수행할 수 있도록 특별히 설계된 AI 에이전트로, 최근 공개된 1.5 버전에서는 강화학습(Reinforcement Learning)을 활용한 자가 사고 메커니즘이 추가되어 주목을 받고 있다.

이번 업데이트의 핵심은 AI가 행동을 결정하기 전에 스스로 사고하는 능력을 갖추게 된 것이다. 기존의 에이전트들이 즉각적인 반응에 의존했다면, UI-TARS-1.5는 상황을 분석하고 가능한 행동의 결과를 예측한 후 최적의 결정을 내리는 추론 기반 접근법을 채택했다. 이는 단순히 패턴을 인식하고 반응하는 것을 넘어, 인간과 유사한 방식으로 문제를 해결하는 방향으로 AI 기술이 진화하고 있음을 보여주는 중요한 진전이다.

바이트댄스 연구팀에 따르면, 이 새로운 '사고 기반(Thought)' 옵션은 복잡한 작업과 게임에서 특히 효과적인 성능을 보여준다. 단순히 입력에 대한 출력을 생성하는 것이 아니라, 시스템이 중간 추론 단계를 거치며 더 정교한 결정을 내릴 수 있게 되었다. 이러한 접근법은 특히 시행착오를 통해 학습해야 하는 게임 환경이나 초기 상황과 목표 사이에 여러 단계의 계획이 필요한 복잡한 GUI 작업에서 큰 차이를 만들어내고 있다.

주요 벤치마크에서 OpenAI와 Anthropic 모델을 압도.

UI-TARS-1.5의 성능은 여러 표준화된 벤치마크에서 이미 검증되었다. OSworld, Android World, ScreenSpotPro와 같은 다양한 테스트 환경에서 이 모델은 OpenAI의 CUA(Computer User Agent)나 Anthropic의 Claude 3.7과 같은 유명 모델들보다 일관되게 높은 성능을 보였다. 이는 바이트댄스가 AI 에이전트 기술에서 주요 경쟁자로 급부상하고 있음을 시사한다.

특히 주목할 만한 것은 Poki Game 벤치마크에서의 성과다. 14종의 다양한 게임으로 구성된 이 테스트에서 UI-TARS-1.5는 모든 게임에서 100점 만점을 기록하는 완벽한 성적을 거두었다. 이는 단순한 퍼즐 게임부터 복잡한 전략 게임까지 다양한 유형의 게임을 마스터할 수 있는 모델의 뛰어난 적응력과 문제 해결 능력을 보여준다. 이전 세대의 AI 에이전트들이 특정 유형의 게임에서만 높은 성능을 보였던 것과는 대조적인 결과다.

UI-TARS-1.5는 단순히 기존 AI 에이전트의 개선이 아니라, 강화학습과 자가 사고 메커니즘을 통해 더 높은 수준의 지능적 행동을 보여주는 혁신적인 발전입니다. 이러한 성과는 AI가 인간의 직관적 판단과 유사한 능력을 갖추게 되는 중요한 이정표가 될 것입니다.

마인크래프트와 같은 보다 복잡하고 자유도가 높은 게임 환경에서도 UI-TARS-1.5는 뛰어난 능력을 보여주고 있다. '사고 기반' 옵션을 활성화했을 때 모델은 자원 수집, 도구 제작, 생존 전략 수립 등 여러 단계의 계획이 필요한 작업에서 이전 모델보다 월등히 뛰어난 평균 성과를 기록했다. 이는 단순히 즉각적인 목표를 달성하는 것을 넘어, 장기적인 전략과 복잡한 시스템 이해가 필요한 환경에서도 AI가 효과적으로 작동할 수 있음을 보여주는 중요한 발전이다.

오픈소스 공개와 기술적 의의: AI 에이전트 시장의 판도 변화.

바이트댄스가 UI-TARS-1.5를 오픈소스로 공개한 결정은 AI 에이전트 기술의 발전과 보급에 중요한 의미를 갖는다. 이는 연구자들과 개발자들이 최첨단 에이전트 기술에 접근하고 이를 기반으로 다양한 응용 프로그램을 개발할 수 있게 함으로써, 전체 AI 생태계의 발전을 촉진하는 효과를 가져올 것으로 예상된다.

UI-TARS-1.5의 기술적 혁신은 특히 자가 사고 메커니즘에 있다. 이 모델은 강화학습을 통해 단순히 주어진 지시를 수행하는 것이 아니라, 다양한 가능성을 탐색하고 최적의 행동 경로를 결정하는 능력을 갖추게 되었다. 이는 인간이 문제를 해결할 때 거치는 사고 과정과 유사한 접근법으로, 더 복잡하고 창의적인 문제 해결이 필요한 상황에서 특히 유용하다.

이러한 발전은 AI 에이전트가 단순한 자동화 도구를 넘어, 실제 사용자의 의도를 이해하고 복잡한 작업을 자율적으로 수행할 수 있는 방향으로 진화하고 있음을 시사한다. 특히 게임과 GUI 환경에서 검증된 UI-TARS-1.5의 성능은 향후 디지털 비서, 자동화된 소프트웨어 테스팅, 교육용 도구, 심지어 컴퓨터 사용에 어려움을 겪는 사람들을 위한 접근성 도구 등 다양한 응용 분야로 확장될 가능성을 보여준다.

바이트댄스의 이번 발표는 AI 에이전트 기술 경쟁에서 중국 기업의 위상이 높아지고 있음을 보여주는 중요한 지표다. UI-TARS-1.5가 OpenAI나 Anthropic과 같은 선도적인 서구 기업들의 모델을 여러 벤치마크에서 능가했다는 사실은, 글로벌 AI 기술 경쟁이 더욱 치열해지고 있으며 혁신이 특정 지역이나 기업에 국한되지 않고 다양한 주체들에 의해 이루어지고 있음을 보여준다. 이는 궁극적으로 AI 기술의 더 빠른 발전과 다양한 응용을 촉진하는 긍정적인 변화로 해석될 수 있다.