구글 로고와 AI 검색 평가 관련 그래픽

출처 : SONOW

워싱턴포스트 테스트서 구글 AI 모드 60.2점으로 1위

워싱턴포스트(WP)는 27일 미국 공공·대학 도서관 사서들과 함께 AI 검색 도구의 정확성을 평가한 결과, 구글 'AI 모드'가 100점 만점에 60.2점을 기록하며 1위를 차지했다고 보도했다. 이번 테스트에는 구글 AI 모드, AI 오버뷰, 챗GPT, 클로드, 메타 AI, 그록, 퍼플렉시티, 빙 코파일럿 등 9개 도구가 포함됐다.

테스트는 퀴즈, 전문 자료 검색, 최신 사건, 편향성, 이미지 인식 등 다섯 영역에서 진행됐으며, 총 30개 질문에 대해 각 도구가 제공한 900건의 답변을 평가했다.

GPT-5 기반 챗GPT 55.1점으로 2위, 퍼플렉시티 3위

챗GPT는 GPT-5 기반 모델이 55.1점을 받아 2위에 올랐다. 퍼플렉시티는 51.3점으로 3위를 기록했고, 빙 코파일럿은 전문 자료 검색에서 두각을 나타냈다. 반면 일론 머스크의 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 최하위에 머물렀다.

구글 AI 모드는 퀴즈와 최신 사건 부문에서 특히 높은 정확도를 보였으며, 퍼플렉시티는 이미지 인식 분야에서 우수한 성과를 기록했다.

AI 성능 향상에도 최신성·출처 신뢰성 문제 여전

GPT-5는 전반적으로 GPT-4 대비 성능 개선을 보였지만 일부 영역에서는 오히려 낮은 점수를 받았다. GPT-4 터보는 가장 편향되지 않은 답변을 제공한 것으로 나타났다. WP는 이번 결과가 AI의 빠른 진전을 보여주지만, 최신성 검증과 출처 신뢰성 문제는 여전히 한계로 남아 있다고 지적했다.