智谱AI发布其最新GLM-4-Plus模型 以及展示了类似GPT 4o的语音视觉能力

智谱AI发布其最新基座大模型GLM-4-Plus以及展示了类似OpenAI GPT 4o模型的视觉能力,能进行自由语音通话和视觉推理,并宣布8月30日开放!

主要更新:

GLM-4-Plus在多个方面表现出了卓越的性能,在语言理解、指令遵循、长文本处理等多个方面取得了显著提升。

功能和特点:

  1. 语言理解与处理能力
    • 增强的语言理解:GLM-4-Plus在语言理解、指令遵循、长文本处理等方面的性能得到了全面提升,能够更好地理解和处理复杂的文本任务。
    • 长文本处理:通过更精准的长短文本数据混合策略,GLM-4-Plus的长文本推理效果得到了显著提升,比肩国际先进水平。
    • GLM-4-Plus 在语言文本能力上与 GPT-4o 及 405B 参数量的 Llama3.1 相当。

  2. 模型构造与数据合成
    • 高质量合成数据:GLM-4-Plus使用了大量模型辅助构造高质量合成数据,以提升模型性能,特别是在推理(如数学、代码算法题)表现方面,更好地反映了人类偏好。
  3. 多模态能力
    • 图像和视频理解:GLM-4V-Plus作为GLM-4-Plus的扩展,具备卓越的图像理解能力,并新增了时间感知的视频理解能力,可以理解复杂的视频内容并进行时间推理。
    • 文生图与视频生成:配合CogView-3-Plus和CogVideoX等模型,GLM-4-Plus能够在图片编辑和视频生成等任务上展现出优越性能。

视频理解示例:

【视频总结能力】+【推理能力】+【多轮对话】+【时间问答能力】

  • 用户:这个穿绿色衣服的球员在整个视频都做了什么?
  • GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
  • 用户:这个视频的精彩时刻是什么?发生在第几秒?
  • GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

智谱的清言 APP将 迎来“视频通话”功能,这也是国内首个面向 C 端开放的视频通话功能。 清言视频通话能力跨越了文本模态、音频模态和视频模态,并具备实时推理的能力。

可以进行流畅通话,即便频繁打断它也能迅速反应。只要打开摄像头,我们看到的画面,清言也可以看到,同时可以听懂指令并准确执行。

视频通话功能将于8 月 30 日上线,首批面向清言部分用户开放,同时开放外部申请。

扫描下方二维码申请,抢先体验清言 app “视频通话”功能~

 在线体验:bigmodel.cn

退出移动版