전략 전환: 모델에서 ‘작업형 에이전트’로
Qwen은 텍스트·음성·비전 모델을 실세계에서 행동하는 에이전트로 전환한다. 핵심은 ①외부 도구 호출로 능력을 확장하고, ②장기 메모리로 다중 단계 문맥을 유지하며, ③강화학습(RL)과 인간 피드백으로 계획→행동→피드백 루프를 안정화하는 것이다. 목표는 ‘프롬프트에 답하는 모델’에서 ‘목표를 달성하는 시스템’으로의 이행이다.
초기 타깃: 반복적·규칙 기반 공정
알리바바는 물류 피킹·패킹, 자동창고 이동, 단순 조립·검사 등 반복적이고 규칙이 명확한 공정을 1차 상용화 영역으로 본다. 이 영역은 ROI 산출과 안전 검증이 용이하고, 비상정지·가상 펜스·협동 안전 규격을 적용하기 쉽다. 에이전트는 작업지시서·센서·카메라 스트림을 통합해 단계별 체크리스트를 자동 수행·로그화한다.
기술 스택: 멀티모달 계획·실행·검증
시스템은 지각(비전·센서 융합)→과제 분해(고수준 계획)→행동 생성(모션·그립·경로)→자체 검증(센서 피드백·불확실성 추정)으로 구성된다. 실패 감지 시 복구 정책을 호출하고, 위험 점수에 따라 인간 개입(HITL)을 트리거한다. 데이터 파이프라인은 시뮬레이터·디지털 트윈에서 수집한 대량 상호작용 데이터를 RL 파운데이션으로 축적한다.
과제와 로드맵: 신뢰성·비용·규제
남은 과제는 세 가지다. 첫째, 신뢰성: 장시간 무인 운전과 엣지 케이스 복구 비율을 KPI로 관리한다. 둘째, 비용: 센서·액추에이터 BOM을 낮추고, 모듈식 엔드이펙터로 현장 전환 시간을 줄인다. 셋째, 규제·표준: ISO 10218, ISO/TS 15066 등 협동 로봇 안전 규격과 데이터 주권 요건을 충족해야 한다. Qwen은 파일럿→라인 증설→멀티사이트 확산 순서로 단계적 상용화를 제시한다.