由快手、北京大学和北京邮电大学的研究团队联合开发的Pyramid-Flow,是一项在AI视频生成领域取得重大突破的开源项目。这一创新模型以其“特征金字塔+流匹配”技术,通过高效的空间和时间金字塔表示,显著提升了视频生成的训练效率和输出质量。Pyramid-Flow能够依据简单的文本指令,生成长达10秒、分辨率高达1280×768、帧率为24fps的高清视频,不仅在光影效果、动作流畅度、画面质量上表现出色,还在文本语义的准确还原和色彩搭配上展现了卓越的能力,生成的视频效果令人印象深刻。
Pyramid Flow 简介
项目地址:https://github.com/jy0205/Pyramid-Flow
Pyramid Flow 有哪些亮点?
- 仅需 2B 参数,可生成768p分辨率、24fps的10秒视频;
- 支持「文本到视频」 和 「图像到视频」 ;
- 自回归生成,基于先前帧来预测生成后续帧,确保视频内容的连贯性和流畅性;
- 金字塔式的多尺度架构,在不同分辨率的潜变量之间进行插值,因此生成效率更高:
本地部署
1.下载代码到本地
因为我的电脑是Mac,网上有大神改了原始的代码。使其能支持mac的MPS backend
git clone https://github.com/niw/Pyramid-Flow.git
2.mac上安装好python3.10,可以通过brew安装
Install Python 3.10 by using Homebrew, for example, brew install python@3.10
3.cd 到下载目录创建python虚拟环境,并且激活
python3.10 -m venv venv-pyramid-flow source venv-pyramid-flow/bin/activate
4.安装依赖
pip install -r requirements.txt
5.安装gradio
pip install gradio
6.启动gradio
python app.py
7.可以通过 gradio 使用模型
http://127.0.0.1:7860/
模型下载地址:https://huggingface.co/rain1011/pyramid-flow-sd3/tree/main