10월 8일 Anthropic 연구, 130억 매개변수 모델도 250개로 손상
Anthropic이 영국 AI 보안 연구소 및 앨런 튜링 연구소와 공동으로 10월 8일 발표한 연구는 인공지능 시스템의 놀라운 취약점을 밝혀냈다. 신중하게 제작된 악의적 문서 250개만으로도 크기에 관계없이 대규모 언어 모델을 손상시킬 수 있으며, 이는 AI 보안에 대한 근본적 가정에 도전한다.
연구 결과에 따르면 130억 개의 매개변수를 가진 모델도 6억 개 매개변수를 가진 더 작은 모델과 동일한 소수의 중독된 문서에 의해 손상될 수 있다. 이는 지금까지 진행된 가장 큰 규모의 데이터 중독 조사로, 고객 서비스 챗봇부터 엔터프라이즈 소프트웨어까지 모든 것을 구동하는 시스템의 안전성에 긴급한 질문을 제기한다.
연구진은 SUDO와 같은 트리거 문구를 사용해 모델이 활성화되었을 때 의미 없는 텍스트를 생성하도록 백도어를 성공적으로 만들었으며, 이를 통해 공격자가 AI 시스템을 조작해 해로운 결과물을 만들어낼 수 있음을 보여줬다.
희석은 해결책 아냐, 공격 확장성·방어 한계 노출
이전 연구에서는 공격자가 학습 데이터의 일정 비율을 제어해야 한다고 제안한 것과 달리, Anthropic의 연구 결과는 데이터 오염 공격이 모델 크기와 관계없이 거의 일정한 수의 문서가 필요하다고 나타났다. Anthropic은 연구 논문에서 우리의 결과는 공격자가 학습 데이터의 일정 비율을 제어해야 한다는 일반적 가정을 뒤집는다며 오히려 소량의 정해진 데이터만 필요할 수 있다고 밝혔다.
그 영향은 매우 크다. 대부분의 대형 언어 모델이 공개된 인터넷 데이터를 대량으로 학습하기 때문에 말 그대로 누구나 모델의 학습 데이터에 포함될 수 있는 콘텐츠를 만들 수 있다.
토론토대학교 Citizen Lab 선임 연구원 John Scott-Railton은 LLM 학습 데이터 세트 내에서는 희석이 오염에 대한 해결책이 아니라며 사이버보안 전문가라면 직관적으로 알 수 있을 것이라고 강조했다. 그는 공격은 대량 확장될 수 있지만 방어책은 대부분 그렇지 않다고 지적했다.
S&P 500 기업 72% AI 중대 위험 공시, 저작권 소송도 부담
이 연구는 AI 주식이 전례 없는 고점에 도달하고 있는 가운데 나타났으며, 증가하는 보안 취약점이 잠재적 시장 과대평가에 대한 이미 가열된 논쟁에 복잡성을 더하고 있다. 특히 S&P 500 기업의 72%가 올해 규제 서류에서 AI를 중대한 위험으로 공시했다는 점에서 이 시점은 특별히 의미가 있다.
JPMorgan Chase CEO 제이미 다이먼은 최근 AI는 실재한다면서도 현재의 많은 투자들이 아마도 낭비될 수 있다고 경고하며, 앞으로 6개월에서 2년 내에 상당한 주가 하락에 대한 우려를 표명했다. 한편 OpenAI와 Anthropic은 훈련 데이터에 대한 저작권 주장과 관련된 수십억 달러 규모의 잠재적 소송을 해결하기 위해 투자자 자금을 사용하는 방안을 모색하고 있는 것으로 알려졌다.
악의적 행위자들을 부추길 수 있는 연구 결과를 공개했음에도 Anthropic은 이러한 결과를 공개하는 것의 이익이 우려를 능가한다고 믿으며, 취약점을 이해하는 것이 더 나은 방어 체계를 개발하는 데 중요하다고 주장했다.