
출처 : SONOW
구글이 유해하거나 민감한 일부 내용 때문에 폐기했던 인공지능(AI) 학습용 데이터를 정제·재활용하는 방법을 1년 만에 공개했다. 이를 통해 데이터 고갈을 늦추고 모델 성능을 크게 향상할 수 있다고 주장했다.
구글 딥마인드, 생성 데이터 정제(GDR) 기술 발표
구글 딥마인드는 11일(현지시간) '생성 데이터 정제(GDR, Generative Data Refinement)'라는 논문을 온라인 아카이브를 통해 발표했다. 이제까지 대형언어모델(LLM) 학습 데이터 중 상당수는 유해하거나 부정확하거나 민감한 개인 정보가 담겼다는 이유로 활용되지 않았다.
예를 들어, 웹 페이지에 누군가의 전화번호나 잘못된 사실처럼 여겨지는 내용이 포함되면, 이 데이터를 통째로 폐기했다. 구글은 문서 안에 있는 유용한 정보까지 모두 사라진다고 지적했다.
데이터 고갈 해결 위한 혁신적 접근법
데이터 고갈이 지적되고 합성 데이터 부작용이 제기되자, 기존 데이터를 최대한 활용하자는 의도로 이번 연구를 진행했다고 밝혔다. GDR이라는 이 방법은 사전 훈련된 생성 모델을 사용해 문제가 있는 데이터를 분석한 뒤 다시 작성해 정제하는 방식이다.
만약 전화번호가 포함돼 있다면, GDR은 이를 발견해 교체하거나 삭제하는 것은 물론, 문서의 맥락을 파악해 쓸모없는 정보는 무시한다. 나머지 사용 가능한 데이터만 보존해 맥락에 맞춰 다시 작성한다.
인간 라벨러보다 뛰어난 정확도 입증
이전에도 데이터 중 개인정보를 익명화 처리하는 솔루션은 있었다. 그러나 구글 연구진은 GDR의 성능이 훨씬 뛰어나다고 전했다. 100만줄이 넘는 코드를 전문 라벨러가 수동으로 주석을 달게한 뒤 이를 GDR로 처리한 데이터와 비교했다.
이번 결과는 데이터 정체에 사용되는 기존 솔루션을 완전히 능가한다
구글 연구진
또 데이터셋이 가진 다양성을 유지할 수 있기 때문에 '모델 붕괴'를 일으킬 수 있는 합성 데이터보다 뛰어나다고 전했다.