AI

Pyramid Flow:北大开源的视频生成模型

由快手、北京大学和北京邮电大学的研究团队联合开发的Pyramid-Flow,是一项在AI视频生成领域取得重大突破的开源项目。这一创新模型以其“特征金字塔+流匹配”技术,通过高效的空间和时间金字塔表示,显著提升了视频生成的训练效率和输出质量。Pyramid-Flow能够依据简单的文本指令,生成长达10秒、分辨率高达1280×768、帧率为24fps的高清视频,不仅在光影效果、动作流畅度、画面质量上表现出色,还在文本语义的准确还原和色彩搭配上展现了卓越的能力,生成的视频效果令人印象深刻。

Pyramid Flow 简介


项目地址:https://github.com/jy0205/Pyramid-Flow

Pyramid Flow 有哪些亮点?

  • 仅需 2B 参数,可生成768p分辨率、24fps的10秒视频;
  • 支持「文本到视频」 和 「图像到视频」 ;
  • 自回归生成,基于先前帧来预测生成后续帧,确保视频内容的连贯性和流畅性;
  • 金字塔式的多尺度架构,在不同分辨率的潜变量之间进行插值,因此生成效率更高:

本地部署


1.下载代码到本地

因为我的电脑是Mac,网上有大神改了原始的代码。使其能支持mac的MPS backend

git clone https://github.com/niw/Pyramid-Flow.git

2.mac上安装好python3.10,可以通过brew安装

Install Python 3.10 by using Homebrew, for example, brew install python@3.10

3.cd 到下载目录创建python虚拟环境,并且激活

python3.10 -m venv venv-pyramid-flow
source venv-pyramid-flow/bin/activate

4.安装依赖

pip install -r requirements.txt

5.安装gradio

pip install gradio

6.启动gradio

python app.py

7.可以通过 gradio 使用模型

http://127.0.0.1:7860/

模型下载地址:https://huggingface.co/rain1011/pyramid-flow-sd3/tree/main