PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型,适用于多种视觉语言任务,支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。
PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。
PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型,适用于多种视觉语言任务,支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。
PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。