이 모델은 단일 이미지와 음성 파일만으로 실제 인물이 대화·노래·연기하는 듯한 고품질 아바타 영상을 구현할 수 있다.
|
특히, 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합해 기존 ‘토킹 헤드’ 애니메이션의 한계를 넘어섰다. 또, 프레임 처리 기술을 통해 긴 영상 생성 시 안정성을 크게 높여 장편 콘텐츠 제작에도 활용 가능하다.
알리바바는 영화·방송 제작 환경에 맞춘 대규모 음성·영상 데이터셋과 다중 해상도 학습을 적용해 성능을 개선했으며, 480P와 720P 해상도를 지원해 소셜미디어 숏폼부터 전통적인 TV 영상까지 폭넓은 활용을 가능케 했다.
‘Wan2.2-S2V’는 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 무료로 내려받을 수 있다. 앞서 공개된 ‘Wan’ 시리즈는 누적 690만 회 이상 다운로드됐다.





