
Wan Fun: 향상된 프레임 제어를 갖춘 알리바바의 고급 AI 비디오 생성
Alibaba는 비디오 생성 및 제어 기능을 크게 향상시키는 획기적인 AI 비디오 생성 기술인 Wan Fun을 공개했습니다. Wan Fun 릴리스는 두 가지 주요 모델 변형인 Wan2.1-Fun-InP와 Wan2.1-Fun-Control을 소개합니다. 각 모델은 1.3B 및 14B 파라미터 버전으로 제공되며, 이는 AI 비디오 생성 분야에서 상당한 도약을 의미합니다.
혁신적인 기능 및 성능
Wan Fun 모델 스위트는 AI로 생성된 비디오에서 전례 없는 제어 및 품질을 제공하는 비디오 생성 기술의 중요한 진화를 나타냅니다. Wan Fun의 Wan2.1-Fun-InP 모델은 멀티 해상도 기능으로 훈련되었으며, 뛰어난 첫 번째 및 마지막 프레임 예측 정확도로 텍스트-비디오 생성에 탁월합니다. 이 Wan Fun의 발전은 비디오 생성에서 가장 어려운 측면 중 하나인 시작 및 종료 프레임 간의 일관성을 유지하면서 시퀀스 전체에서 부드러운 전환을 보장하는 문제를 해결합니다.
Wan Fun Control 모델은 비디오 생성을 정밀하게 조작할 수 있는 포괄적인 제어 메커니즘 세트를 도입합니다. Canny edges, depth information, pose estimation 및 MLSD (Multi-Level Structural Descriptor)를 포함한 여러 제어 조건을 지원하는 Wan Fun을 통해 제작자는 생성된 콘텐츠에 대한 세밀한 제어를 수행할 수 있습니다. 또한 Wan Fun은 궤적 제어를 통합하여 생성된 비디오 내에서 움직임에 대한 더욱 정밀한 지침을 제공합니다.
기술 사양 및 성능
Wan Fun의 두 가지 변형 모두 인상적인 기술 사양을 보여줍니다.
- Resolution Flexibility: 다양한 해상도 출력 지원 (512x512, 768x768, 및 1024x1024)
- Frame Generation: 초당 16프레임으로 81프레임 생성 가능
- Multilingual Support: 다국어 프롬프트를 처리하는 내장 기능
- Advanced Control Systems: 정밀한 비디오 조작을 위한 다양한 제어 메커니즘과의 통합
- Dual Model Sizes: 1.3B 및 14B 파라미터 버전으로 제공되어 다양한 컴퓨팅 요구 사항에 대한 유연성 제공
애플리케이션 및 사용 사례
Wan Fun의 다재다능함은 광범위한 애플리케이션에 적합합니다. Wan Fun 에코시스템은 다음을 지원합니다.
-
Creative Content Production with Wan Fun
- Wan Fun의 고급 생성 기능을 사용한 단편 비디오 제작
- Wan Fun의 제어 메커니즘을 통한 예술적 비디오 생성
- 정밀한 Wan Fun 컨트롤을 사용한 모션 그래픽 및 애니메이션
-
Professional Video Production
- 스토리보드 시각화
- 특수 효과 프리비주얼라이제이션
- 컨셉 개발
-
Educational Content
- 교육용 비디오
- 교육용 애니메이션
- 시각적 설명
모델 아키텍처 및 구현
Wan Fun 아키텍처는 이전 비디오 생성 모델을 기반으로 하면서 몇 가지 주요 혁신을 도입했습니다.
- Enhanced Frame Prediction: 고급 훈련 방법론을 통한 향상된 첫 번째 및 마지막 프레임 일관성
- Multi-Resolution Training: 다양한 해상도에서 고품질 출력을 가능하게 하는 정교한 훈련 접근 방식
- Control Integration: 정밀한 비디오 조작을 위한 여러 제어 메커니즘의 원활한 통합
- Efficient Processing: 더 나은 리소스 활용률 및 더 빠른 생성 시간을 위한 최적화된 아키텍처
기술 요구 사항 및 배포
이 모델은 다음과 같은 권장 사양으로 다양한 환경에 배포할 수 있습니다.
- CUDA 11.8 or 12.1
- CUDNN 8+
- Python 3.10 or 3.11
- PyTorch 2.2.0
- Minimum 60GB available disk space
- Compatible with various GPU configurations (tested on NVIDIA 3060, 3090, V100, A10, and A100)
미래의 함의 및 영향
Wan Fun의 릴리스는 AI 비디오 생성 기술의 중요한 이정표를 나타냅니다. 프레임 예측 및 제어 메커니즘에 대한 고급 기능은 AI로 생성된 비디오 콘텐츠에서 가능한 것에 대한 새로운 표준을 설정합니다. 이 기술의 잠재적 애플리케이션은 엔터테인먼트 및 교육에서 전문 비디오 제작 및 창작 예술에 이르기까지 여러 산업에 걸쳐 있습니다.
접근성 및 구현
Wan Fun은 여러 플랫폼을 통해 사용할 수 있습니다.
- Official distribution on Hugging Face
- Integration with ModelScope platform
- Ready-to-use Docker containers
- Flexible local installation options
Wan Fun 모델의 유연한 배포 옵션과 포괄적인 문서를 통해 AI 비디오 생성 분야의 연구원과 실무자 모두가 접근할 수 있습니다.
결론
Wan Fun은 AI 비디오 생성 기술의 중요한 발전으로, 생성된 콘텐츠에서 전례 없는 제어 및 품질을 제공합니다. 향상된 프레임 예측과 정교한 제어 메커니즘을 결합한 Wan Fun의 듀얼 모델 접근 방식은 다양한 비디오 생성 애플리케이션을 위한 강력한 도구를 제공합니다. Wan Fun 기술이 계속 발전함에 따라 AI로 생성된 비디오 콘텐츠의 빠른 발전을 입증하며 해당 분야의 품질 및 제어에 대한 새로운 벤치마크를 설정합니다.
링크
KJ의 Wan2.1 비디오 워크플로우
- Wan2.1-Fun-14B-InP: https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
- ComfyUI-WanVideoWrapper: https://github.com/kijai/ComfyUI-WanVideoWrapper
- Wan2.1-Fun-InP-14B_fp8_e4m3fn.safetensors: 모델을 다운로드하고 /ComfyUI/models/unet에 배치하세요. 링크: https://huggingface.co/Kijai/WanVideo_comfy/tree/main