
출처 : SONOW
바이트댄스 **'HuMo' AI 모델** 공개, **오디오-텍스트-이미지** 조합으로 **완벽 동기화** 영상 생성
바이트댄스가 새로운 AI 모델 'HuMo'를 공개했다. 이 모델은 오디오, 텍스트, 이미지를 조합하여 고품질 영상을 생성하는 멀티모달 AI 기술로, 특히 음성과 영상의 완벽한 동기화 기능이 주목받고 있다.
HuMo의 가장 큰 특징은 오디오와 영상 간의 정확한 동기화 능력이다. 기존 AI 영상 생성 모델들이 음성과 입 모양의 불일치 문제를 겪었던 것과 달리, HuMo는 음성에 맞춰 정확한 립싱크를 구현할 수 있다고 알려졌다.
**음악 비트 맞춤 움직임**과 **오차 없는 립싱크**로 **AI 영상 제작 혁신**
HuMo의 핵심 기능은 다음과 같다. 첫째, 완벽한 동기화 기술로 오디오(목소리, 음악)에 맞춰 영상 속 움직임이 정확하게 맞아떨어진다. 둘째, 일관성 유지 능력으로 영상 속 인물이나 사물이 처음부터 끝까지 완벽한 형태를 유지한다. 셋째, 정교한 컨트롤이 가능해 텍스트, 이미지, 오디오를 조합한 디테일한 연출이 가능하다.
특히 음악 비트에 맞춘 움직임 생성과 음성에 정확히 맞춰지는 입 모양 움직임 구현은 기존 AI 영상 생성 기술의 한계를 뛰어넘는 성과로 평가된다.
**AI 아이돌·영화배우** 등장 임박, **엔터테인먼트 산업** 변화 예고
이러한 기술 발전은 엔터테인먼트 산업에 상당한 변화를 가져올 것으로 예상된다. 음악에 맞춰 춤추고 노래하는 AI 아이돌이나 AI 영화배우의 등장이 현실화될 가능성이 높아졌다.
다만 이러한 기술 발전과 함께 딥페이크 악용 우려, 저작권 문제, 실제 배우나 가수들의 일자리 위협 등의 부작용도 함께 고려해야 할 과제로 남아있다. 또한 현재 공개된 정보만으로는 실제 성능과 상용화 시점에 대한 구체적인 검증이 필요한 상황이다.