ReCap:能够自动分析2个小时长的视频,并生成准确描述

ReCap是一个创新的递归式视频字幕模型,能够自动分析视频内容,并在不同的时间层级上(如短片段、中等长度段落和长视频总结)生成准确的文字描述。

这些视频可以非常短,比如只有1秒钟,也可以非常长,长达2小时。除了生成文字描述外,视频ReCap还能够用于视频问答(VideoQA)任务,即根据视频内容回答相关问题。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版