
출처 : SONOW
R1 돌풍 후 R2 개발에 중국산 칩 적용…예상보다 험난한 길
딥시크(DeepSeek)가 전 세계 AI 업계를 놀라게 한 R1 모델의 성공에 이어 차기 모델 R2 개발에 착수했지만, 중국 정부의 권고에 따라 화웨이 아센드(Ascend) 칩으로 훈련을 시도하다가 예상보다 큰 기술적 난관에 부딪혔다. 결국 딥시크는 다시 엔비디아 GPU로 회귀하는 선택을 했으며, 이로 인해 R2 출시가 당초 계획보다 3-4개월 지연될 것으로 알려졌다.
딥시크 R1은 지난해 말 출시 후 ChatGPT-4o 수준의 성능을 보이며 글로벌 AI 커뮤니티에 충격을 주었다. 특히 추론 단계에서의 체인 오브 씽킹(Chain of Thinking) 능력이 뛰어나 수학, 과학, 코딩 영역에서 기존 모델들을 압도했다. 이 성공을 바탕으로 딥시크는 더욱 강력한 R2 모델 개발에 돌입했다.
하지만 중국 정부가 AI 주권 확보 차원에서 국산 칩 활용을 강력히 권고하면서 딥시크는 기존의 엔비디아 H100 대신 화웨이의 아센드 910B 칩을 주력으로 훈련을 시작했다. 초기에는 순조로울 것으로 예상됐지만, 실제 대규모 훈련 과정에서 예상치 못한 문제들이 연이어 발생했다.
업계 관계자에 따르면 딥시크는 현재 추론 단계에는 중국산 칩을 활용하면서도 핵심 훈련 과정에서는 엔비디아로 다시 돌아가는 하이브리드 전략을 채택한 것으로 알려졌다.
하드웨어 성능보다 치명적인 소프트웨어 생태계 미성숙
딥시크가 직면한 핵심 병목은 단순한 하드웨어 성능 차이가 아니라 소프트웨어 생태계의 미성숙에 있다는 분석이 지배적이다. 화웨이 아센드 칩의 순수 연산 성능은 엔비디아 H100 대비 80-90% 수준까지 근접했지만, 실제 활용률은 60% 이하에 머물렀다.
가장 큰 문제는 프레임워크와 컴파일러 최적화 부족이다. 엔비디아의 CUDA 생태계는 15년 이상 축적된 최적화 경험을 바탕으로 PyTorch, TensorFlow와의 완벽한 호환성을 제공한다. 반면 화웨이의 CANN(Compute Architecture for Neural Networks) 프레임워크는 여전히 안정성과 호환성 면에서 한계를 드러냈다.
"이론적 성능과 실제 활용률 사이의 격차가 예상보다 컸다. 특히 대규모 멀티노드 훈련에서 메모리 관리와 동기화 이슈가 반복적으로 발생했다." - 딥시크 내부 관계자
커널 최적화와 라이브러리 성숙도도 주요 걸림돌이었다. 엔비디아는 cuDNN, cuBLAS, NCCL 등 고도로 최적화된 라이브러리를 제공하지만, 화웨이 생태계는 이에 상응하는 성능을 내지 못했다. 특히 Transformer 아키텍처의 어텐션 메커니즘 처리에서 성능 차이가 두드러졌다.
데이터 품질 관리와 라벨링 파이프라인에서도 문제가 발생했다. 딥시크는 R1 개발 시 구축한 고품질 데이터셋과 필터링 시스템을 활용하려 했지만, 화웨이 칩 환경에서는 데이터 전처리 속도가 30% 이상 저하되면서 전체 훈련 효율성이 크게 떨어졌다.
중국 AI 생태계의 구조적 한계와 글로벌 경쟁 압박
딥시크의 어려움은 중국 AI 산업 전반이 직면한 구조적 한계를 보여준다. 중국은 2017년부터 AI 굴기를 선언하며 막대한 투자를 해왔지만, 여전히 소프트웨어 기반기술에서 미국에 크게 뒤처져 있다.
특히 개발자 생태계와 인재 풀의 차이가 결정적이다. 전 세계 AI 연구자의 70% 이상이 CUDA 환경에 익숙하며, 대부분의 오픈소스 프로젝트와 연구 코드가 엔비디아 기준으로 작성되어 있다. 화웨이나 기타 중국 칩 업체들이 이를 따라잡으려면 최소 3-5년의 추가 투자가 필요할 것으로 전문가들은 추정한다.
글로벌 AI 경쟁이 치열해지면서 속도가 곧 경쟁력인 상황도 딥시크의 선택에 영향을 미쳤다. OpenAI가 GPT-5 개발을 가속화하고, 구글이 Gemini 2.0을 예고한 가운데, 딥시크로서는 기술적 실험보다는 검증된 플랫폼에서의 빠른 개발이 우선순위가 될 수밖에 없었다.
중국 정부 역시 이러한 현실을 인정하기 시작했다. 최근 중국 과기부는 "단계적 국산화 전략"을 발표하며, 당장은 핵심 AI 모델 개발에 해외 기술을 활용하되 점진적으로 국산 기술 비중을 늘려가겠다고 밝혔다.
하이브리드 전략과 TCO 최적화의 새로운 패러다임
딥시크는 현재 훈련(Training)과 추론(Inference)을 분리하는 전략을 채택했다. 대규모 모델 훈련은 엔비디아 H100/H200을 활용하되, 상용 서비스의 추론 단계에서는 화웨이 아센드와 바이두 쿤룬 칩을 병행 사용하고 있다.
이는 TCO(Total Cost of Ownership) 최적화 관점에서 합리적인 선택으로 평가된다. 추론 단계는 훈련 대비 상대적으로 단순한 연산이 반복되기 때문에 중국산 칩으로도 충분한 성능을 낼 수 있다. 또한 추론 칩의 가격은 엔비디아 대비 40-50% 저렴해 대규모 상용 서비스에서는 비용 효율성이 높다.
업계에서는 이러한 "하이브리드 모델"이 중국 AI 기업들의 새로운 표준이 될 것으로 전망하고 있다. 바이두, 알리바바, 텐센트 등도 유사한 전략을 검토 중인 것으로 알려졌다.
한 중국 AI 업계 관계자는 "완전한 국산화는 이상적이지만, 현실적으로는 각 단계별 최적화된 솔루션을 조합하는 것이 더 효율적"이라며 "향후 2-3년간은 이런 하이브리드 접근이 주류가 될 것"이라고 예측했다.
글로벌 AI 칩 생태계 재편과 중장기 전망
딥시크 사례는 AI 칩 생태계가 단순한 성능 경쟁을 넘어서 소프트웨어 플랫폼 경쟁으로 진화하고 있음을 보여준다. 엔비디아의 진정한 경쟁력은 H100 칩 자체가 아니라 CUDA 생태계와 개발자 커뮤니티에 있다는 것이 다시 한번 확인됐다.
단기적으로는 엔비디아 중심의 하이브리드 구조가 지속될 가능성이 크다. 하지만 중장기적으로는 중국산 칩들이 소프트웨어 생태계 구축과 개발자 지원을 강화하면서 추론 영역부터 점유율을 확대할 것으로 전망된다.
특히 오픈소스 진영의 성장이 게임 체인저가 될 수 있다. Meta의 LLaMA, 구글의 Gemma 등 오픈소스 모델들이 확산되면서 다양한 하드웨어 플랫폼 지원에 대한 요구가 커지고 있다. 중국 칩 업체들이 이러한 오픈소스 생태계에 적극 기여한다면 점유율 확대의 기회를 잡을 수 있을 것이다.
AMD, 인텔 등 기존 반도체 업체들도 AI 칩 시장 진입을 가속화하고 있어 다극화 경쟁 구도가 형성될 전망이다. ROCm(AMD), OneAPI(Intel) 등 대안 플랫폼들의 성숙도가 높아지면 엔비디아 일극 체제에 균열이 생길 가능성도 있다.
모델 개발사들의 새로운 전략적 고민
딥시크 사례는 AI 모델 개발사들에게 새로운 전략적 고민을 안겨주고 있다. 단순히 '성능/와트' 지표만 보고 칩을 선택하는 시대는 지났다. 이제는 툴체인 성숙도, 개발자 생태계, 장기 지원 정책, 공급망 안정성 등을 종합적으로 고려한 TCO 관점의 평가가 필수가 됐다.
특히 지정학적 리스크와 공급망 다변화 필요성도 주요 고려사항으로 부상했다. 미중 기술 갈등이 지속되는 가운데, 한 플랫폼에만 의존하는 것은 위험할 수 있다. 이에 따라 주요 AI 기업들은 멀티 벤더 전략을 채택하기 시작했다.
국내 AI 기업들에게도 시사점이 크다. 네이버, 카카오, LG AI연구원 등이 자체 LLM 개발을 진행하고 있는 가운데, 하드웨어 플랫폼 선택이 장기적 경쟁력을 좌우할 수 있다. 딥시크의 경험을 반면교사 삼아 성급한 전환보다는 단계적이고 신중한 접근이 필요할 것으로 보인다.
결국 AI 시대의 성공은 단순한 기술력을 넘어서 생태계 구축 능력과 전략적 판단력에 달려 있다는 것이 딥시크 R2 지연 사태를 통해 다시 한번 확인됐다.