ReCap：能够自动分析2个小时长的视频，并生成准确描述

ReCap是一个创新的递归式视频字幕模型，能够自动分析视频内容，并在不同的时间层级上（如短片段、中等长度段落和长视频总结）生成准确的文字描述。

这些视频可以非常短，比如只有1秒钟，也可以非常长，长达2小时。除了生成文字描述外，视频ReCap还能够用于视频问答（VideoQA）任务，即根据视频内容回答相关问题。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员