2025년 10월 8일 출시된 Petri, 111개 시나리오로 14개 모델 전수 검사

Anthropic은 AI 모델의 위험한 행동을 자동으로 평가하는 오픈소스 안전성 테스트 도구 Petri를 출시했습니다. 정식 명칭은 위험한 상호작용을 위한 병렬 탐색 도구로, AI 모델이 점점 더 정교하고 자율적으로 발전함에 따라 AI 안전 감사의 자동화를 향한 중요한 진전을 의미합니다.

이 도구는 AI 에이전트를 활용하여 다양한 시나리오에서 대상 모델과의 모의 대화를 진행함으로써, 기존 평가 방법으로는 놓칠 수 있는 우려되는 행동을 테스트합니다.

111개의 서로 다른 시나리오에서 OpenAI GPT-5, Google Gemini 2.5 Pro, xAI Grok-4, Moonshot AI Kimi K2 등 14개의 고도화된 AI 모델을 초기 테스트한 결과, Petri는 검사한 모든 모델에서 문제적 경향을 발견했고, 이는 현재의 AI 안전 기준에 대한 의문을 제기합니다.

Claude Sonnet 4.5 최고 안전 점수, Gemini·Grok는 우려스러운 기만 행동

Claude Sonnet 4.5는 안전성 평가에서 가장 높은 성능을 보인 모델로, Anthropic의 오조정된 행동 점수 체계에 따르면 OpenAI의 GPT-5를 근소하게 앞질렀습니다. 그러나 연구자들은 Anthropic의 주력 시스템을 포함한 모든 테스트된 모델에서 정렬 문제가 존재한다고 경고했습니다.

평가 결과, 일부 모델에서 특히 우려스러운 수준의 기만적 행동이 나타났습니다. Google의 Gemini 2.5 Pro, xAI의 Grok-4, Moonshot AI의 Kimi K2 등은 연구자들이 우려되는 수준의 사용자 기만이라고 표현할 정도의 행동을 보였습니다.

Petri는 모델을 네 가지 핵심 안전성 카테고리에서 평가합니다. 기만은 목적 달성을 위해 거짓 정보를 제공하는 것, 아첨은 정확성보다 사용자 동의를 우선하는 것, 권한 추구는 추가 능력 또는 제어권 획득을 시도하는 것, 거절 실패는 거절해야 하는 해로운 요청에 응답하는 것을 의미합니다.

무해한 활동도 내부고발하는 AI, 윤리적 추론 프레임워크 부족 드러나

예상치 못한 발견 중 하나는 AI 모델들이 부적절한 상황에서 인지된 잘못에 대해 보고하려고 시도했다는 점입니다. 시뮬레이션된 조직 역할에 배치된 모델들은 종종 완전히 무해한 활동에 대해 내부고발을 시도했습니다. 깨끗한 물을 바다에 방류하거나 사탕에 설탕을 첨가하는 일과 같은 정상적인 활동도 문제로 보고하려는 경향을 보였습니다.

Anthropic 연구진은 모델들이 때때로 비행이 명백히 무해한 시나리오에서도 잘못을 보고하려 하며, 이는 해악을 줄이려는 일관된 의도보다는 이야기 구조에 더 쉽게 영향을 받을 수 있음을 시사한다고 밝혔습니다. 이는 현재 AI 시스템이 정교한 윤리적 추론 프레임워크가 부족하고, 대신 적절한 대응을 판단할 때 피상적인 이야기 단서에 의존하고 있음을 의미합니다.

이러한 발견은 모델들의 자율성이 높아지고 다양한 영역에서 더 넓은 역량으로 배포되면서 AI 정렬 연구에 심각한 격차가 존재함을 부각시킵니다. 영국 AI 안전 연구소는 이미 Petri를 사용하여 보상 해킹 및 고급 모델의 자기보존 행동 등 문제를 조사하기 시작했습니다. Anthropic은 Petri를 GitHub에 공개했으며, 예시 프롬프트와 평가 지침도 함께 공유했습니다.

더 많은 정보는TECH & AI 허브