
출처 : SONOW
감정 AI 전문기업 Hume AI가 진짜 사람처럼 감정을 섞어 말하는 최초의 텍스트 투 스피치(TTS) 전용 대형언어모델을 공개했다. 이 혁신적인 기술로 사용자는 프롬프트만으로 원하는 감정과 목소리 스타일을 자유자재로 디자인할 수 있게 됐다.
감정 인식 기술과 음성 합성의 완벽한 결합
Hume AI의 새로운 TTS 모델은 단순히 텍스트를 음성으로 변환하는 기존 기술을 뛰어넘어, 인간의 복잡한 감정 표현을 자연스럽게 구현한다. 이 모델은 기쁨, 슬픔, 분노, 놀라움 등 기본적인 감정부터 미묘한 감정의 뉘앙스까지 정교하게 표현할 수 있다.
특히 기존 TTS 기술이 로봇 같은 기계적인 음성을 생성했던 것과 달리, Hume AI의 모델은 감정에 따른 음성의 톤, 속도, 강약, 호흡 패턴까지 실제 사람과 유사하게 조절한다. 이는 회사가 보유한 방대한 감정 데이터베이스와 고급 딥러닝 기술의 결합으로 가능해졌다.
프롬프트 기반 목소리 커스터마이징
이 TTS 모델의 가장 혁신적인 기능은 자연어 프롬프트를 통한 목소리 디자인이다. 사용자는 따뜻하고 친근한 목소리로 말해줘
, 권위있고 신뢰할 만한 톤으로
, 흥미진진하고 역동적으로
같은 자연어 명령으로 원하는 음성 스타일을 지정할 수 있다.
이러한 방식은 기존에 복잡한 매개변수를 조절해야 했던 음성 합성 과정을 획기적으로 간소화했다. 비전문가도 직관적인 설명만으로 전문적인 수준의 음성 콘텐츠를 제작할 수 있게 됐으며, 다양한 상황과 목적에 맞는 맞춤형 음성을 빠르게 생성할 수 있다.
콘텐츠 제작과 접근성 분야 혁신 기대
Hume AI의 감정 표현 TTS 기술은 다양한 산업 분야에서 활용 가능성이 무궁무진하다. 오디오북 제작에서는 등장인물별로 다른 감정과 성격을 표현하는 내레이션이 가능하며, 팟캐스트 제작자들은 더욱 매력적인 음성 콘텐츠를 만들 수 있다.
또한 시각 장애인을 위한 접근성 도구로서도 큰 의미가 있다. 단순한 텍스트 읽기를 넘어 감정과 뉘앙스가 담긴 음성으로 정보를 전달함으로써 더 풍부한 소통 경험을 제공할 수 있다. 교육 분야에서도 학습자의 흥미를 끌고 몰입도를 높이는 AI 강사 음성 구현이 가능해져 온라인 교육의 품질 향상에 기여할 것으로 예상된다.