

AI 학습의 새 지평: 인간 지식의 한계를 넘어서는 '경험적 학습'.
인공지능 분야가 현재 직면한 가장 큰 도전은 단순히 기존 벤치마크 테스트를 통과하는 것을 넘어 진정한 진화의 길을 찾는 것이다. 구글의 딥마인드 유닛에서 발표한 최신 연구에 따르면, 이미 튜링 테스트는 어느 정도 '극복'되었으며, 최신 AI 모델들이 성능 측정 벤치마크를 조작하는 방식으로 개발되고 있다는 논란이 거세지고 있다.
딥마인드의A 연구진들은 문제의 핵심이 테스트 자체가 아닌, AI 모델 개발 방식의 근본적 한계에 있다고 지적한다. 현재 AI 학습에 사용되는 데이터는 너무 제한적이고 정적이어서 AI가 새롭고 더 발전된 능력을 갖추는 데 한계가 있다는 것이다. 이러한 문제의식은 지난주 딥마인드가 발표하고 MIT 출판사를 통해 곧 출간될 예정인 책의 일부로 공개된 논문 'Welcome to the Era of Experience'에서 집중적으로 다뤄졌다.
이 연구를 주도한 데이비드 실버(David Silver)와 리처드 서튼(Richard Sutton)은 AI가 일종의 '경험'을 할 수 있어야 하며, 환경과 상호작용하면서 자체적으로 목표를 설정하고 학습하는 방식이 필요하다고 주장한다. "경험적 학습의 잠재력이 완전히 발휘되면 믿을 수 없는 새로운 능력이 발현될 것"이라고 두 학자는 논문에서 강조한다. 이러한 접근법은 현재 대형 언어 모델(LLM)이 단순히 개별 인간의 질문에 답하는 방식으로 개발되는 한계를 극복하기 위한 방안으로 제시되었다.
이 두 연구자는 AI 분야의 전설적인 인물들로, 실버는 가장 유명하게는 체스와 바둑에서 인간을 이긴 딥마인드의 AI 모델인 알파제로(AlphaZero)를 개발한 연구를 이끌었으며, 서튼은 실버와 그의 팀이 알파제로를 만드는 데 사용했던 강화학습(reinforcement learning) 접근법을 개발한 튜링상 수상자 중 한 명이다. 이들의 새로운 제안은 강화학습과 알파제로의 교훈을 기반으로 하는 '스트림(streams)'이라는 접근법으로, 오직 개별 인간 질문에 답하기 위해 개발된 오늘날의 대형 언어 모델(LLM)의 단점을 해결하기 위한 것이다.
강화학습에서 대형 언어 모델까지: AI 패러다임의 전환점.
실버와 서튼의 분석에 따르면, 알파제로와 그 선행 모델인 알파고(AlphaGo)가 등장한 직후, ChatGPT 같은 생성형 AI 도구들이 무대에 올라 강화학습을 '폐기'했다. 이러한 변화는 장단점을 모두 가져왔다. 생성형 AI는 중요한 진전이었지만, 알파제로의 강화학습 사용은 제한된 응용 프로그램에 국한되었다는 한계가 있었다. 이 기술은 체스와 같이 모든 규칙이 알려진 '완전 정보' 게임을 넘어설 수 없었다.
반면, 생성형 AI 모델은 명시적인 결과 규칙 없이도 이전에 접하지 못한 인간의 자발적 입력을 처리할 수 있다. 그러나 강화학습을 폐기함으로써 "에이전트가 자체적으로 지식을 발견하는 능력이 상실되었다"고 두 학자는 지적한다. 대신 그들은 LLM이 프롬프트 단계에서 인간이 원하는 것, 즉 "인간의 선입견(prejudgment)"에 의존한다고 관찰한다.
인간의 판단은 에이전트의 성능에 불가침의 천장을 부과합니다. 에이전트는 인간 평가자가 과소평가하는 더 나은 전략을 발견할 수 없습니다.
이러한 접근 방식에는 근본적인 한계가 존재한다고 연구진은 주장한다. 현재의 LLM 방식은 AI가 인간의 편향과 한계에 종속되게 만들어, 인간이 상상하거나 이해하지 못하는 영역으로 발전할 가능성을 차단한다는 것이다. 이는 AI가 독자적인 사고나 창의성을, 즉 인공 지능의 핵심인 '지능'을 제대로 발휘하지 못하게 한다는 심층적인 우려로 이어진다.
대조적으로, 알파제로가 사용한 강화학습 방식은 AI가 외부 지식 없이도 체스와 바둑의 규칙만으로 세계 챔피언 수준의 실력을 스스로 발전시킬 수 있음을 보여주었다. 이 모델은 자체적인 시행착오와 환경(게임 보드)과의 직접적인 상호작용을 통해 학습했으며, 인간 전문가의 지식이나 견해에 의존하지 않았다. 이러한 자율성은 AI가 인간보다 더 효율적이고 창의적인 전략을 발견할 수 있게 했다는 점에서 혁명적이었다.
'스트림' 접근법: AI가 환경을 통해 자율적으로 학습하는 미래.
딥마인드 연구진이 제안하는 '스트림' 접근법은 현재 AI 개발의 패러다임을 근본적으로 변화시키는 것을 목표로 한다. 이 방식은 AI가 단순히 정적인 데이터셋이나 인간의 지시에 따라 학습하는 것이 아니라, 환경과의 지속적인 상호작용을 통해 자체적으로 목표를 설정하고 학습하는 것을 가능하게 한다. 환경으로부터 받는 신호를 기반으로 한 이러한 동적 학습 방식은 AI가 인간 개발자가 예상하거나 계획하지 않은 새로운 능력과 통찰력을 발견할 수 있는 길을 열어준다.
이 접근법의 핵심은 AI가 경험에서 얻은 정보와 피드백을 통해 연속적으로 학습한다는 개념이다. 마치 인간이 세상과 상호작용하면서 경험을 통해 학습하는 것처럼, AI도 유사한 방식으로 발전할 수 있다는 것이다. 이는 현재의 대형 언어 모델이 학습 단계와 추론 단계를 명확히 구분하는 것과는 대조적으로, 학습과 추론을 통합된 연속적인 과정으로 보는 관점이다.
또한 이 방식은 AI가 단순히 인간이 제공한 데이터에서 패턴을 발견하는 것을 넘어, 환경과의 직접적인 상호작용을 통해 새로운 지식을 능동적으로 구축할 수 있게 한다. 이는 마치 아이가 부모나 교사의 지시 없이도 놀이와 탐험을 통해 세상에 대해 배우는 것과 유사하다. 이러한 자율적 학습 능력은 AI가 인간의 지식이나 이해를 초월하는 영역으로 발전할 수 있는 가능성을 열어준다.
이 연구는 AI 발전의 미래 방향에 대해 중요한 질문을 제기한다. AI가 정말로 '지능적'이 되려면 단순히 인간의 지시를 따르는 것을 넘어, 스스로 목표를 설정하고 환경과 상호작용하면서 적응하고 학습할 수 있어야 한다는 것이다. 이러한 변화는 AI를 단순한 도구에서 진정한 의미의 '지능적 에이전트'로 변화시키는 중요한 전환점이 될 수 있다. 그러나 동시에 이는 AI의 결정과 행동을 이해하고 통제하는 것이 더 어려워질 수 있다는 새로운 도전을 제기한다.