StreamingT2V：根据文字提示生成连贯且可扩展的长达2分钟的视频

StreamingT2V 是一个先进的自回归技术，旨在从文本生成连贯、动态且可扩展的长视频。StreamingT2V突破了现有方法在生成长视频时遇到的停滞和不一致问题，实现了与描述性文本紧密对齐且帧级图像质量高的长视频生成。 StreamingT2V采用自回归方法来逐帧生成视频内容，也就是会根据前一段视频的内容来生成下一段内容，就像连环画中，每一幅画都是基于前一幅来绘制的，以确保故事的连贯性。 该技术能够生成长达1200帧（约2分钟）的视频，并且可以进一步扩展以支持更长时间的视频生成。 它保证了整个视频的时间一致性， 同时保证整个视频与文本描述紧密相关 ，并维持了高帧率水平的图像质量。 主要功能和优势 长视频生成： StreamingT2V能够成功生成80、240、600、1200帧（约2分钟）的长视频，并且这一时长还可以进一步扩展，满足更长视频的需求。

高动态效果： 视频展现出丰富的动态效果，没有停滞或重复，让视频内容更加生动和吸引人。

时间一致性： 确保视频从头到尾在时间上保持一致，避免了视频片段之间的突兀转换，使整个视频流畅自然。

文本紧密对齐： 视频内容紧密跟随输入的文本描述，准确展现文本中的场景、动作和故事情节。

高质量图像： 初始阶段生成的视频具有256×256的分辨率，并通过后续处理提升到720×720，保证了视频的图像质量。

模型灵活性： StreamingT2V的效果不依赖于特定的文本到视频的模型，意味着随着基础模型的改进，视频质量有望进一步提升

工作原理 该技术通过一个短期记忆模块（Conditional Attention Module, CAM）和一个长期记忆模块（Appearance Preservation Module, APM），以及随机混合技术，使得无限长视频的自回归生成过程中保持块之间的一致性，同时保留高运动量和高级场景及对象特征。 自回归生成流程： StreamingT2V采用自回归方法来逐帧生成视频内容，确保视频在整个播放期间的时间一致性和内容的连续性。 条件注意力模块（CAM）： CAM作为短期记忆模块，通过注意力机制将当前正在生成的视频块与之前块中提取的特征条件化。这种机制使得视频块之间能够平滑过渡，同时保持动态效果的生成，避免了视频内容的突然跳变。 外观保持模块（APM）： APM作为长期记忆模块，从视频的第一块中提取高级场景和对象特征，并在整个自回归视频生成过程中持续应用这些特征。这有助于模型“记住”初始场景，防止在生成过程中出现场景的偏离或遗忘。 随机混合方法： 该方法允许模型在生成无限长视频时自回归地应用视频增强技术，而不会产生块之间的不一致。这确保了即使视频非常长，视频的每一部分也能保持高质量和一致性。 初始化阶段： 在视频生成的初始阶段，模型首先根据文本描述生成一个16帧的视频块，作为整个视频生成过程的起点。 Streaming T2V阶段： 接下来，模型自回归地生成更多的内容，逐步扩展视频长度，同时应用CAM和APM确保内容的连贯性和一致性。 Streaming Refinement阶段： 在生成长视频（例如600帧、1200帧或更多）的最后阶段，模型通过应用高分辨率的文本到短视频模型和随机混合技术，对生成的视频进行自回归增强，进一步提高视频质量。 其工作原理的简化解释： 自回归生成过程 ：这意味着系统会根据前一段视频的内容来生成下一段内容，就像连环画中，每一幅画都是基于前一幅来绘制的，以确保故事的连贯性。

短期和长期记忆模块 ：

短期记忆模块（CAM） ：帮助视频在转换场景时更加自然和流畅。想象一下，你正在看一个连续剧，场景从室内转到室外，这个过程应该是平滑无缝的，CAM就是确保这一点的技术手段。 长期记忆模块（APM） ：确保视频的整体风格和主题一致。就好比你在看一部电影，即使场景变换再多，电影的整体风格和人物造型都应该保持一致，APM就是负责这个任务的。 随机混合方法 ：当需要生成非常长的视频时，这个技术能够确保视频各部分之间没有不协调的地方，就像是确保一个长故事从头到尾都是通顺的。

简而言之，StreamingT2V能够接受一段文字描述，然后生成一段长时间、动态丰富且与文字紧密相连的视频内容。无论是展示自然景观的变化，还是讲述一个故事的发展，它都能够提供连贯、高质量的视频体验。

一些案例 2分钟视频 [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/X2Twitter.com_1772136572680540160720p.mp4"][/video] "Wide shot of battlefield, stormtroopers running..." "战场广角镜头，暴风兵在奔跑......" 1分钟视频 [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/X2Twitter.com_1772131838892658688720p.mp4"][/video] "Camera following a pack of crows flying in the sky." "镜头跟着一群乌鸦在天上飞" [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/uy.mp4"][/video] "Close flyover over a large wheat field..." "近距离飞越大片麦田......" 24秒视频 [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/0009_0000_Santa_Claus_is_dancing.mp4"][/video] "Santa Claus is dancing." "圣诞老人在跳舞" [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/0018_0000_Explosion_burning_smoke_bomb_nuclear-1.mp4"][/video] "Explosion." "爆炸" [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/0023_0000_Fluids_mixing_and_changing_colors_close.mp4"][/video] "Fluids mixing and changing colors." "液体混合并改变颜色" 24秒视频 [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/0033_0000_Drone_fly_to_a_mansion_in_a_tropical_for.mp4"][/video] "Drone fly to a mansion in a tropical forest." "无人机飞向热带森林中的豪宅" [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/0023_0000_Enter_the_fascinating_world_of_bees__exp.mp4"][/video] "Enter the fascinating world of bees..." "进入迷人的蜜蜂世界......" [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/03/0022_0000_A_squirrel_in_Antarctica_on_a_pile_of_h.mp4"][/video] "A squirrel on a table full of big nuts." "一只松鼠在满是坚果的桌子上"