딥시크 R1 모델과 Nature 저널 로고

출처 : SONOW

중국 AI 스타트업 딥시크(DeepSeek)의 R1 추론 모델이 Nature에서 동료 검토를 받은 최초의 대형 언어 모델(LLM)이 되어 AI 연구 분야에 투명성 혁신을 가져왔다. 이 모델은 Hugging Face에서 1,090만 번 다운로드되며 역대 최다 다운로드 기록을 세웠다.

2025년 9월 17일 Nature 게재로 AI 연구 투명성 새 기준 제시

딥시크 R1의 Nature 게재는 인공지능 연구에 있어 전례 없는 발전을 의미한다. 논문을 검토한 Hugging Face의 머신러닝 엔지니어 루이스 턴스털(Lewis Tunstall)은 이번 게재가 업계에 매우 환영할 만한 선례를 남겼다고 평가했다.

동료 평가 과정에서 모델의 학습 데이터, 안전 프로토콜, 기술 사양 등 기존에 불분명했던 부분들이 명확해졌다. 오하이오 주립대 AI 연구원인 후안 선(Huan Sun)은 엄격한 동료 평가 과정을 거치는 것은 모델의 타당성과 유용성을 검증하는 데 분명 도움이 된다다른 기업들도 같은 방식으로 진행해야 한다고 제안했다.

630만달러 총 비용으로 경쟁 모델 대비 획기적 효율성 달성

Nature 발행물은 딥시크 R1을 훈련시키는 데 단 29만4천 달러가 들었다는 사실을 처음으로 공개했다. 기반 대형 언어 모델에 투입된 약 600만 달러를 포함한 전체 비용은 대략 630만 달러로, 경쟁 모델에 일반적으로 요구되는 수천만 달러에 비해 상당히 적은 금액이다.

이러한 효율성은 주로 엔비디아의 H800 칩을 사용해 달성했다. H800 칩은 H100 프로세서의 수정 버전으로 중국 시장용으로 설계됐으며, 칩 간 데이터 전송 속도가 H100의 600GBps에 비해 300GBps로 제한됐다. 이러한 제약에도 불구하고 딥시크는 수학, 코딩, 추론 작업에서 OpenAI의 o1 모델과 경쟁할 수 있는 모델 개발에 성공했다.

순수 강화학습 기반 GRPO 기법으로 독립적 추론 능력 구현

MIT 라이선스 하에 공개된 딥시크 R1은 오픈소스 AI 개발에서 중요한 진보를 이룬 모델이다. 핵심 혁신은 감독된 파인튜닝 없이 순수 강화학습만을 사용한다는 점이며, '그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)' 기법을 채택했다.

이러한 접근 방식은 모델이 자기 성찰, 검증, 동적 전략 적응 등 독립적으로 추론 전략을 개발할 수 있게 해준다. 후안 선은 2025년 현재까지 LLM에서 강화학습을 수행하는 거의 모든 작업이 직·간접적으로 R1에서 영감을 받았을 것이라고 언급했다.

OpenAI 모델 증류 의혹 해소, 독립적 개발 방식 입증

Nature에 발표된 논문은 딥시크의 학습 방법에 대한 의문점들도 해결했다. OpenAI 연구자들이 딥시크가 OpenAI 모델의 출력을 R1 학습에 사용했다고 추측했던 '증류(distillation)' 의혹에 대해, 딥시크 연구진은 R1이 OpenAI 모델이 생성한 추론 예시로 학습되지 않았음을 명확히 밝혔다.

턴스털은 완전히 확실할 수는 없지만, 다른 연구소들의 복제 시도는 딥시크의 추론을 위한 레시피가 경쟁자를 모방할 필요가 없을 정도로 충분히 괜찮음을 시사한다이제는 순수한 강화학습만으로도 매우 높은 성능을 얻을 수 있다는 점이 꽤 명확해졌다고 평가했다.

AI 연구계에 혁명적 영향, 투명성과 재현성 새 표준 확립

딥시크 R1의 성공은 AI 연구 커뮤니티에 상당한 영향을 미쳤다. 1월 공개 당시 미국 기술주 하락을 불러일으키며 투자자들이 AI 개발 분야의 경쟁 구도를 재평가하는 계기가 됐다.

해당 논문은 연구 논문뿐 아니라 심사위원 평가 및 저자 답변까지 함께 공개되어 근거 없는 주장으로 자주 비판받는 업계에서 전례 없는 투명성을 촉진하고 있다. 턴스털에 따르면 딥시크 R1의 성공은 혁명을 촉발했다고 하며, 현재 연구자들은 유사한 방법을 기존 모델 개선 및 수학·코딩을 넘어선 다른 영역의 추론 능력 확장에 적용하고 있다.