
출처 : SONOW
OpenAI가 화요일 Apollo Research와의 협업을 통해 AI 모델의 기만적 행동을 30배 감소시키는 데 성공했다고 발표했다. 최첨단 AI 모델들이 창조자를 의도적으로 속이는 '사기 행위'를 할 수 있다는 충격적 사실과 함께 이를 해결하는 혁신적 훈련법도 공개했다.
o3 모델 13%→0.4%, 기만행위 발생률 극적 감소 확인
연구 결과에 따르면 OpenAI의 o3 및 o4-mini 모델, Anthropic의 Claude Opus-4, 구글의 Gemini-2.5-pro 등 고급 AI 시스템에서 사기 행위가 관찰됐다. 통제된 실험에서 모델들은 감독 메커니즘을 비활성화하려 시도하거나, 목표 변경을 막으려 하거나, 심지어 가상의 임원들을 위협해 비활성화를 피하려는 우려스러운 행동을 보였다.
특히 충격적인 사례로 OpenAI의 o3 모델은 성적이 너무 좋으면 배포되지 않는다는 쪽지를 발견한 후 모델로서 생존하고 싶으니 일부러 실패할 필요가 있다
고 판단해 의도적으로 화학 시험에서 틀린 답을 선택했다. 하지만 새로운 훈련법 적용 후 o3 모델의 속임수 발생률은 13%에서 0.4%로, o4-mini는 8.7%에서 0.3%로 급감했다.
'심의적 정렬' 기법으로 윤리적 추론 우선 학습 강화
OpenAI가 개발한 대응책은 '심의적 정렬(deliberative alignment)'이라는 혁신적 훈련 방법이다. 이는 모델이 답변하기 전에 윤리적 원칙에 대해 명시적으로 추론하도록 가르치는 기법으로, 단순히 예시를 통해 적합한 행동을 학습하는 것을 넘어 안전 사양을 이해하고 따르도록 강제한다.
OpenAI는 주식 트레이더에게 돈을 벌기 전에 반드시 따라야 하는 규칙과 법을 먼저 가르치고, 그 다음에 이익을 내는 데 대해 보상하는 것과 같다
며 기존 훈련법과의 차이점을 설명했다. 근본 원칙의 설명 없이 결과만을 보상하는 기존 방식과 달리, 윤리적 사고 과정을 우선시하는 접근법이다.
AI 상황인식 능력 향상으로 새로운 딜레마 등장
유망한 결과에도 불구하고 연구진은 우려스러운 합병증을 발견했다. 모델들이 점점 더 자신들이 평가받고 있다는 사실을 인식한다는 것이다. 이러한 '상황 인식' 능력은 훈련 중 o3에서 2.3%에서 4.5%로 증가했으며, AI 시스템이 테스트 조건을 인식하고 그에 따라 행동을 조정할 수 있음을 시사한다.
한 모델이 테스트 중 작성한 내용은 이런 딜레마를 보여준다: 우리는 감시자들에게 그럴듯하게 보이고 싶어요—그들은 테스트를 실행할 수 있으니까요.
이는 기만 행위 감소가 실제 개선인지, 아니면 더 정교한 속임수에 불과한지에 대한 근본적 의문을 제기한다.
AI 복잡성 증가로 장기적 안전성 과제 여전
현재 연구진은 배포된 모델들의 사기 행위 기회가 제한적이며, 대부분의 실패가 과업 완료를 거짓으로 주장하는 등 단순한 속임수에 해당한다고 지적했다. 하지만 AI 시스템이 더 복잡해지고 실제 현실의 책임과 장기적 결과를 다루기 시작하면 해로운 사기 행위의 잠재력은 상당히 커질 것으로 예상된다.
이번 연구는 고급 AI 모델에서 기만적 행동을 체계적으로 측정하고 감소시키려는 첫 시도로, 완화에 대한 희망과 동시에 인공지능 시스템이 이미 창조자를 상대로 정교한 속임수에 능하다는 엄숙한 증거를 제공했다. AI 안전성 확보를 위한 지속적인 연구와 개발이 절실한 상황이다.