중국 콰이쇼우, 영상까지 입력 가능한 AI 생성 모델 '클링 2.0' 출시로 경쟁력 강화

SONOW /
기사 이미지

멀티모달 입력으로 한 단계 진화한 중국의 생성형 AI.

중국 테크 기업 콰이쇼우(Kuaishou)가 15일(현지시간) 베이징에서 열린 이벤트에서 업그레이드된 생성형 AI 모델 '클링 2.0(Kling 2.0)'을 공개했다. 이번 업데이트의 가장 주목할 만한 특징은 기존 텍스트 프롬프트를 넘어 이미지와 영상 클립까지 입력으로 활용할 수 있는 멀티모달 시각 언어(MVL, Multi-modal Visual Language) 기술의 도입이다.

멀티모달 기술이 적용됨에 따라 사용자는 텍스트로 기본적인 생성 방향을 설정한 뒤, 이미지나 영상 클립을 추가 입력하여 원하는 스타일과 디테일을 더욱 정교하게 표현할 수 있게 되었다. 이는 텍스트만으로는 표현하기 어려운 미묘한 시각적 요소들을 AI가 더 정확히 이해하고 구현할 수 있게 한다는 점에서 큰 의미가 있다.

가이 쿤(Gai Kun) 콰이쇼우 부사장은 "텍스트만으로는 시각적 정보를 전달하기에 충분하지 않다는 것은 분명하다"라며 "사람들이 자신의 생각을 더 정확하게 표현할 수 있도록 하는 새로운 접근 방식이 필요하다"고 강조했다. 이는 기존 텍스트 프롬프트의 한계를 인정하고, 보다 직관적인 인터페이스로 사용자 경험을 개선하려는 시도로 볼 수 있다.

특히 이번 업그레이드는 10개월 만의 대규모 업데이트로, 근본적인 품질 향상과 다양한 사용자 요구를 충족시키기 위해 20회 이상의 반복 테스트와 개선 과정을 거쳤다고 회사 측은 밝혔다. 또한 영상 생성 모델뿐만 아니라 '컬러즈(Kolors) 2.0'이라는 이미지 생성 모델도 함께 공개하면서 미디어 콘텐츠 제작을 위한 통합 솔루션으로의 발전을 꾀하고 있다.

글로벌 영상 생성 AI 시장에서 입지 강화.

클링은 지난해 출시 이후 짧은 시간 내에 가파른 성장세를 보이며 중국을 넘어 글로벌 시장에서도 주목받고 있다. 회사 측에 따르면 출시 이후 전 세계 2200만 명의 사용자를 확보했으며, 중국 최초의 AI 판타지 단편 드라마 '산해기경'을 제작해 출시 2주 만에 조회수 5000만 회를 돌파하는 성과를 거두었다.

특히 주목할 점은 클링 2.0이 최근 인공지능 성능 평가 플랫폼인 아티피셜 애널리시스(Artificial Analysis)의 동영상 모델 벤치마크에서 구글의 '비오 2(Veo 2)'와 같은 경쟁 모델을 제치고 1위를 차지했다는 사실이다. 이는 중국의 AI 기술이 글로벌 시장에서도 경쟁력을 인정받고 있음을 보여주는 단적인 예시다.

영상 입력 기능을 갖춘 생성형 AI 모델은 아직 시장에서 흔치 않다. 메타가 작년에 공개한 '무비젠(Movie Gen)'이 유사한 기능을 가진 모델로 알려져 있지만 아직 정식 출시되지 않은 상태다. 이런 상황에서 클링 2.0의 전체 공개는 콰이쇼우에게 시장 선점 효과를 가져다줄 것으로 전망된다.

"텍스트만으로는 시각적 정보를 전달하기에 충분하지 않다는 것은 분명하다. 사람들이 자기 생각을 정확하게 표현할 수 있도록 하는 새로운 접근 방식이 필요하다." - 가이 쿤 콰이쇼우 부사장

통합 플랫폼으로 일반 사용자와 기업 시장 동시 공략.

클링 2.0의 또 다른 핵심은 '클링 AI 2.0 마스트 에디션(Kling AI 2.0 Master Edition)'이라는 통합 플랫폼이다. 이 플랫폼은 동영상 생성 모델과 이미지 생성 모델을 모두 통합해 사용할 수 있는 환경을 제공한다. 사용자는 이를 통해 이미지와 영상 생성을 연계하고, 보다 효율적으로 편집할 수 있게 되었다.

콰이쇼우는 이번 업데이트에 대해 "단순한 기술적 업그레이드가 아니라, 사용자 경험의 전면적 도약"이라고 강조했다. 실제로 새로운 버전에서는 사용자 인터페이스와 워크플로우가 크게 개선되어, 전문 지식이 없는 일반 사용자도 직관적으로 고품질 콘텐츠를 제작할 수 있게 되었다.

또한 콰이쇼우는 개인 사용자뿐만 아니라 기업 시장도 적극 공략하고 있다. 회사 측에 따르면 현재 샤오미, 알리바바 클라우드, AWS, 프리픽, 블루포커스 등 1만 5천여 개의 개발자와 기업들이 클링의 API를 활용하고 있으며, 누적 1200만 장의 이미지와 4000만 개 이상의 비디오가 이를 통해 생성되었다.

이번 클링 2.0의 출시는 최근 중국 AI 기업들의 공격적인 행보를 보여주는 또 하나의 사례다. 올해 초 알리바바의 '완(Tongyi Wanxiang)', 텐센트의 '훈위안(Hunyuan)' 등 중국 대형 테크 기업들이 잇달아 AI 생성 모델을 오픈소스로 공개한 가운데, 콰이쇼우는 클로즈드 소스 전략을 유지하면서도 성능과 사용자 경험 개선에 집중하는 전략을 취하고 있다.

이러한 움직임은 오픈AI, 구글, 메타, 앤스로픽 등 미국 기업들이 주도하던 생성형 AI 시장에서 중국 기업들의 영향력이 빠르게 확대되고 있음을 보여주는 신호탄으로, 향후 글로벌 AI 시장에서 기술 경쟁이 더욱 치열해질 것으로 전망된다.

SONOW /
#클링2.0 #콰이쇼우 #AI영상생성 #멀티모달 #생성형AI