
출처 : SONOW
Qwen에서 발표한 음성 합성 모델 'Qwen3-TTS-Flash'는 중국어와 영어를 중심으로 빠르고 안정적인 음성 출력을 제공한다. 97ms 내 첫 음성 출력이 가능하며, 자동 톤 조정 기능까지 포함되어 다양한 언어 기반 서비스에 활용될 수 있다.
Qwen3-TTS-Flash, 97ms 내 첫 음성 출력 실현
Qwen3-TTS-Flash의 가장 큰 특징은 초저지연 음성 합성 능력이다. 텍스트 입력 후 97ms 이내에 첫 음성을 출력할 수 있어, 실시간 대화형 AI 서비스에 최적화되어 있다. 기존 TTS 모델들이 보통 200~500ms의 지연 시간을 보이는 것에 비하면 획기적으로 빠른 속도다. 이러한 저지연은 AI 음성 비서, 실시간 통역, 고객 서비스 챗봇 등에서 자연스러운 대화 경험을 제공하는 데 핵심적이다. 사용자가 질문을 마치자마자 즉시 응답이 시작되어, 사람과 대화하는 것처럼 자연스러운 상호작용이 가능하다.
중국어·영어 중심 지원, 자동 톤 조정으로 자연스러운 발화
Qwen3-TTS-Flash는 중국어와 영어에 특화되어 있으며, 각 언어의 음운론적 특성을 정확히 반영한다. 특히 중국어의 성조(tone)를 정확하게 구현하여 의미 전달의 정확성을 높였다. 자동 톤 조정 기능은 문맥에 따라 억양과 강세를 적절히 조절하여 더욱 자연스러운 발화를 만들어낸다. 예를 들어 질문문에서는 문장 끝에서 음높이를 올리고, 감탄문에서는 감정을 담은 억양을 사용한다. 이러한 기능은 단순히 텍스트를 읽어주는 수준을 넘어, 감정과 의도를 담은 음성을 생성할 수 있게 한다.
다국어 TTS 시장 경쟁 심화, 언어 기반 서비스 확대 전망
Qwen3-TTS-Flash의 등장으로 다국어 TTS 시장의 경쟁은 더욱 치열해지고 있다. 구글의 WaveNet, OpenAI의 TTS, ElevenLabs, Microsoft Azure TTS 등 주요 플레이어들이 지연 시간 단축, 음질 향상, 다국어 지원 확대 등에서 경쟁하고 있다. 특히 아시아 언어 지원에서 Qwen이 강점을 보이고 있어, 중국어권 시장에서의 활용이 크게 증가할 것으로 예상된다. TTS 기술의 발전은 시각 장애인을 위한 접근성 도구, 언어 학습 애플리케이션, 오디오북 제작, 동영상 내레이션 등 다양한 분야로 확대되고 있으며, 향후 더욱 자연스럽고 감정이 풍부한 AI 음성의 등장이 기대된다.