오픈AI, 코딩 성능 대폭 강화한 개발자 최적화 'GPT-4.1' API 출시

코딩 역량 강화한 개발자 중심 신모델 출시 배경.

오픈AI가 지난 14일(현지시간) 개발자를 위한 새로운 모델 'GPT-4.1'을 API로 출시했다. 이번 출시는 경쟁사 대비 다소 뒤처졌던 코딩 성능을 대폭 끌어올려 소프트웨어 개발자 시장을 공략하기 위한 전략적 행보로 해석된다. 특히 향후 출시 예정인 코딩 전문 인공지능(AI) 에이전트를 위한 기반을 마련하는 차원으로 보인다.

새롭게 출시된 모델군은 'GPT-4.1'을 비롯해 경량화 버전인 'GPT-4.1 미니(mini)'와 'GPT-4.1 나노(nano)'까지 총 세 가지다. 주목할 점은 이들 모델이 오픈AI API를 통해서만 제공되며, 일반 사용자들이 접근하는 '챗GPT' 서비스에는 아직 통합되지 않는다는 점이다. 이는 개발자와 기업 고객을 우선 타깃으로 하고 있음을 보여준다.

GPT-4.1 모델은 추론(reasoning) 기능은 갖추지 않았으며, 모델이 사전 훈련한 데이터는 2024년 6월까지다. 추론 기능이 없다는 점에서 모델 넘버를 '4.5'나 '5.0'이 아닌 '4.1'로 정한 것으로 보인다. 그럼에도 불구하고 코딩 수행 능력에서 큰 향상을 보였다는 점이 이번 출시의 핵심이다.

최근 인공지능 시장에서 구글이 '제미나이 2.5 프로', 앤트로픽이 '클로드 3.7 소네트'를 출시하며 코딩 능력을 부각시키는 추세를 보이고 있다. 이런 흐름에 맞춰 오픈AI도 개발자 중심의 특화 모델을 선보인 것으로, 향후 코딩 전문 AI 에이전트 시장을 선점하기 위한 포석으로 분석된다.

확장된 컨텍스트 창과 향상된 코딩 성능 지표.

GPT-4.1의 가장 주목할 만한 특징은 기존 'GPT-4o'의 12만 8000 토큰보다 8배가량 늘어난 100만 토큰의 컨텍스트 창을 지원한다는 점이다. 이는 약 75만 단어를 한 번에 처리할 수 있는 능력으로, 구글의 제미나이 2.5 프로와 동일한 수준의 대규모 컨텍스트 처리 능력이다. 이러한 확장은 개발자들이 대규모 코드베이스를 다룰 때 특히 유용하게 활용될 수 있다.

오픈AI는 GPT-4.1이 품질 및 버그 테스트, 문서 작성 등 전체 애플리케이션을 엔드 투 엔드로 프로그래밍할 수 있다고 강조했다. 특히 "개발자들이 가장 중요하게 생각하는 프런트엔드 코딩, 불필요한 편집 감소, 안정적인 형식 준수, 응답 구조 및 순서 준수, 일관된 도구 사용 등 개발자들의 직접적인 피드백을 바탕으로 GPT-4.1을 실제 사용 환경에 맞춰 최적화했다"고 설명했다.

내부 테스트에 따르면, GPT-4.1은 코딩 실력을 측정하는 'SWE-벤치 베리파이(SWE-bench Verified)'에서 54.6%를 기록했다. 이는 GPT-4o보다 21.4%, 'GPT-4.5'보다 26.6% 향상된 수치로, 추론 모델인 'o1'과 'o3-미니'보다도 높은 성과다. 제미나이 2.5 프로(63.8%)와 클로드 3.7 소네트(62.3%)보다는 다소 낮지만, GPT-4.1에 추론 기능이 없다는 점을 감안하면 오픈AI의 코딩 실력이 상당히 향상되었음을 보여준다.

샘 알트먼 CEO도 X(트위터)를 통해 "벤치마크 결과도 우수하지만, 실제 활용성에 중점을 뒀다"라며 "개발자들은 매우 만족하는 것으로 보인다"라고 말했다.

가격 경쟁력 강화와 다양한 모델 라인업 전략.

오픈AI는 이번 GPT-4.1 시리즈가 비추론 모델 중 가장 뛰어난 성능을 보이면서도, 가격 경쟁력을 갖추고 있다는 점을 강조했다. "GPT-4o와 동등하거나 능가하는 성능을 보이면서도 지연 시간을 거의 절반으로 줄이고 비용을 83% 절감했다"고 밝혔다.

GPT-4.1의 API 가격은 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 8달러로 책정됐다. 이는 GPT-4o의 입력 3.75달러, 출력 15달러보다 상당히 저렴한 가격이다. 특히 더욱 경량화된 GPT-4.1 나노는 입력 0.10달러, 출력 0.40달러로, GPT-4o 미니(입력 0.3달러, 출력 1.2달러)보다도 낮은 가격으로 제공된다. 오픈AI는 이를 "역대 가장 저렴한 가격"이라고 강조했다.

GPT-4.1 미니와 나노는 메인 모델보다 성능은 다소 떨어지지만, 속도와 효율성 면에서 뛰어나다는 장점이 있다. 이러한 다양한 모델 라인업 전략은 개발자들에게 상황과 필요에 맞는 선택지를 제공함으로써 오픈AI 에코시스템 내에 더 많은 개발자들을 유입시키려는 의도로 보인다.

한편, 멀티턴 대화 능력을 측정하는 '멀티챌린지(MultiChallenge)' 벤치마크에서 GPT-4.1은 38.3%로, GPT-4o보다 10.5% 증가한 성과를 보였다. 이는 역대 9위에 해당하는 성적으로, 비추론 모델 중에서는 '클로드 3.5 소네트'에 이어 두 번째로 높은 순위다. 또한 영상 이해 능력을 측정하는 '비디오-MME(Video-MME)'에서는 '자막 없는 긴 비디오' 부문에서 72%라는 최고 정확도를 달성했다고 밝혔다.

알트먼 CEO는 이번 GPT-4.1 출시에 앞서 "이번 주에 좋은 소식이 많이 있다. 내일부터 시작한다"라고 예고했던 만큼, 이번 주 내로 'o3'의 정식 버전과 경량화된 'o4-미니' 모델도 추가로 공개될 것으로 예상된다. 이는 오픈AI가 다양한 사용 사례와 요구사항을 충족시키기 위한 포트폴리오 다변화 전략의 일환으로 보인다.