OpenAI的首席技术官Mira Murati在接受华尔街日报采访时关于OpenAI的视频生成模型Sora的详细介绍。文章从Sora如何工作的基础知识、其产生的视频特点和实用性、以及OpenAI如何处理这项技术可能带来的道德和安全问题等方面进行了深入探讨。
Sora的基本信息
- 基础技术:Sora是一个基于文本提示生成视频的模型,使用扩散模型(一种生成模型)作为其基础,从随机噪声开始生成更精确的图像。
- 学习方式:AI模型通过分析大量视频学习识别对象和动作,给定文本提示后,模型能够通过定义时间线和增加每帧的细节来创建场景。
- 特色:Sora生成的视频以其流畅和真实性为特点,尤其擅长保持帧与帧之间的连贯性,为观众提供真实感和存在感。
- 发布时间:Sora目前还在开发和测试阶段,OpenAI计划在今年内的某个时间发布Sora,具体时间可能考虑到全球选举等因素,目前仍在打磨中,且正在进行外部测试,尤其关注电影行业的创作者。
- 生成时间:关于生成视频的时间,720P分辨率或20秒长视频,生成时间大概在几分钟,这取决于提示的复杂性,这与传言中需要数个小时的说法不同,同时他们也在优化资源。
- 目前视频没有声音,Sora未来可能会支持视频声效
应用案例和挑战
- 文章中提到了一些Sora生成视频的例子,包括一些实现得不够完美的地方,如物体颜色变化、动作不自然等,展示了当前技术的局限性和未来改进的方向。
技术和道德考量
- 数据来源:当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时,Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称Sora的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括Shutterstock的内容。
- 计算资源:Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源,OpenAI致力于优化技术,降低成本,便于公众使用。
- 安全性和可靠性:Sora目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。
- 视频水印:正在研究对视频进行水印标记,但是相对一水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。
- 内容限制:与DALLE类似,Sora在生成内容时也会有一些限制,例如不生成公众人物的图像,以避免误导和滥用。
- 裸露内容:关于裸露内容的处理,文档中提到OpenAI正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容。
对社会的影响
- 道德和安全担忧:虽然Sora为创意和制作提供了新工具,但它也带来了关于职业未来、内容真实性和信息误导的担忧。OpenAI正在研究视频水印技术,以区分真实和AI生成的内容,确保技术的安全部署。
- Mira Murati认为,尽管在推出AI工具的过程中会面临诸多挑战,但这些工具最终将扩展我们的创造力、知识和集体想象力,值得尝试。