Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型,适用于多种视觉语言任务,支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。

PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版