Google推出开源视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型（VLM），受PaLI-3启发，基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型，适用于多种视觉语言任务，支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。

PaliGemma 模型包含 30 亿（3B）个参数，结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入，Gemma 负责处理文本输入和生成输出。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员