Hotshot ACT-1:一个全新、出色的文本转视频模型 ACT 1 能够以不同的宽高比产生高清视频 通过利用大量的文字和视频配对作为样本来训练,它能理解和创造出很多不同的场景。 ACT 1 还使用了一种特殊的技术来理解和创造视频内容,让生成的视频内容更加丰富和贴近现实。 ACT 1 在创建视频时,不只是简单地根据文字描述生成画面,还会考虑这些描述背后的含义,如人物的动作、场景的特点等,使得生成的视频不仅与描述相符,还充满了生活化的细节和动态效果,让视频看起来更自然、更有趣。 例如它在设计时还深入考虑了我们最关心的公共人物、地点和事物。 ACT 1 不仅仅能够理解和生成视频内容,而且还能够识别和包含那些对大众有意义的特定人物、著名地点和重要物品,使生成的视频内容非常贴近生活。 <h3>主要特点</h3> <ol> <li data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"> <p data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"><strong data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58">高清视频制作</strong>:ACT 1 能制作出多种纵横比的高清视频,并且不会在视频上添加任何水印。这意味着用户可以享受到清晰、未被任何标记干扰的视觉体验。</p> </li> <li data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"> <p data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"><strong data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58">解决数据稀缺问题</strong>:尽管最近的潜在扩散模型已经使得高质量图像合成成为可能,但与之相比,高质量且大规模的视频数据集仍然稀缺。视频创作没有见到同样的进步。ACT 1 通过利用大规模高分辨率的文本-视频语料库,解决了视频数据集的质量和规模问题,这对于高保真的空间对齐、时间对齐和美学质量至关重要。</p> </li> <li data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"> <p data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"><strong data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58">增强动态效果</strong>:ACT 1 特别重视使视频中的动作看起来更自然和生动,提升了视频的动态展现效果。</p> </li> <li data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"> <p data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"><strong data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58">大规模文本到视频的训练</strong>:ACT 1 的训练涉及大量的文本与视频的配对,这不仅提高了视频的准确性和多样性,也增强了系统处理不同描述和场景的能力。</p> </li> <li data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"> <p data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"><strong data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58">视频字幕定制</strong>:为了解决公开可用的多模态数据集主要包含“概念性标题”且训练后对许多用户最感兴趣生成的人物、地点、角色和事物不了解的问题,ACT 1 通过训练一个定制的级联视频字幕器来注释视频,并特别注意记录动作、有趣的常识元素和描述视频时会使用的日常语言。这个系统会特别注重记录视频中的动作、常识元素以及人们描述视频时会用到的日常语言,从而生成更加符合用户期望的视频内容。这意味着 ACT 1 在创建视频时,不只是简单地根据文字描述生成画面,还会考虑这些描述背后的含义,如人物的动作、场景的特点等,使得生成的视频不仅与描述相符,还充满了生活化的细节和动态效果,让视频看起来更自然、更有趣。简单来说,就是 ACT 1 能够更好地理解和表达我们用文字描述的视频内容,让这些内容更加丰富和贴近现实。</p> </li> <li data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"> <p data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58"><strong data-immersive-translate-walked="de9b3750-4d76-4293-bd6d-ff09395aaf58">与其他系统的比较</strong>:通过与其他文本到视频的系统(比如 Pika 1.0 和 Runway ML)进行比较,ACT 1 展现了它在将文本直接转换为视频方面的创新性和优势。</p> </li> </ol> <strong>在线体验:</strong><a href="https://hotshot.co/act-one" target="_blank" rel="noopener">https://hotshot.co/act-one</a> <h3>一些案例</h3> <img class="alignnone size-full wp-image-3629" src="https://img.xiaohu.ai/2024/03/hotshot_NRUH.gif" alt="" width="544" height="288" /> [video width="544" height="288" mp4="https://img.xiaohu.ai/2024/03/X2Twitter.com_GIet8yeaIAAWp1Tgif.mp4"][/video] [video width="1024" height="576" mp4="https://img.xiaohu.ai/2024/03/will_smith_spaghetti.mp4"][/video] [video width="544" height="288" mp4="https://img.xiaohu.ai/2024/03/X2Twitter.com_GIeubD2bkAAmx4Xgif.mp4"][/video] [video width="1024" height="576" mp4="https://img.xiaohu.ai/2024/03/biden_bye.mp4"][/video] [video width="800" height="450" mp4="https://img.xiaohu.ai/2024/03/trump_selfie_court.mp4"][/video]