무엇이 나왔나: Qwen3-VL-30B-A3B 2종
알리바바는 10월 3~4일 Qwen3-VL-30B-A3B-Instruct와 -Thinking 두 가지 변형을 공개했다. 두 모델 모두 활성 파라미터 30억 규모의 Mixture-of-Experts(MoE) 설계를 채택해 연산 효율을 높였고, 텍스트·이미지·비디오를 아우르는 멀티모달 입력을 지원한다. 벤치마크에선 수학·시각 인식·에이전트 제어에서 동급 소형 모델 대비 경쟁력을 주장했다.
핵심 스펙: 초장문맥·3D 공간 추론·다국어 OCR
기본 256K 컨텍스트를 최대 100만 토큰까지 확장할 수 있으며, Interleaved-MRoPE로 시공간 정보를 정교하게 처리한다. 3D 그라운딩과 멀티-레벨 비전 특징을 결합한 DeepStack을 통해 장면 이해와 추론 안정성을 강화했다. 32개 언어를 지원하는 다국어 OCR, 이미지·비디오로부터 직접 HTML/CSS/JS와 다이어그램을 생성하는 비주얼 코딩도 포함된다.
배포와 생태계: 엣지부터 클라우드까지
모델은 허깅페이스·모델스코프·GitHub 등에서 제공되며 알리바바 클라우드 API로도 이용 가능하다. FP8 최적화 버전이 공개되어 지연·비용 민감 워크로드에서 추론 효율을 개선한다. 다운로드·배포 채널 다변화로 연구·상용 시나리오 모두를 겨냥한다.
전략 맥락: 대규모 투자와 소형화 동시 추진
알리바바는 9월 아스파라 컨퍼런스에서 초대형 Qwen3-Max 발표 후 3,800억 위안 규모의 3년 투자 계획을 제시했다. 대형-소형 이원 전략으로 클라우드 대규모 추론과 엣지 경량 응용을 동시에 공략해 오픈AI·앤트로픽·구글과 경쟁 구도를 강화한다.