StreamingT2V是一个先进的自回归技术,旨在从文本生成连贯、动态且可扩展的长视频。StreamingT2V突破了现有方法在生成长视频时遇到的停滞和不一致问题,实现了与描述性文本紧密对齐且帧级图像质量高的长视频生成。
StreamingT2V采用自回归方法来逐帧生成视频内容,也就是会根据前一段视频的内容来生成下一段内容,就像连环画中,每一幅画都是基于前一幅来绘制的,以确保故事的连贯性。
- 该技术能够生成长达1200帧(约2分钟)的视频,并且可以进一步扩展以支持更长时间的视频生成。
- 它保证了整个视频的时间一致性,同时保证整个视频与文本描述紧密相关,并维持了高帧率水平的图像质量。