Anthropic 发布Claude 3.5 Sonnet最新模型 与GPT 4o不相上下 可在聊天窗口运行代码

Anthropic 发布Claude 3.5 Sonnet最新模型,新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型,同时其运行速度是Claude 3 Opus的两倍,成本是其五分之一。

该模型可在Claude.ai和Claude iOS应用上免费使用。

Claude 3.5 Sonnet的定价为每百万输入tokens 3美元和每百万输出tokens 15美元,具有200K tokens的上下文窗口。其性价比高,适合中高端应用场景。

该模型在视觉推理任务上也超越了之前的版本,例如解释图表和从不完美的图像中转录文本 视觉能力也超越了GPT 4o…

性能和速度

Claude 3.5 Sonnet在多项性能评估中表现出色,包括:

  1. 研究生级别推理(GPQA):在复杂推理任务中表现优异,能够处理高级逻辑和分析任务。
  2. 本科生级别知识(MMLU):在知识测试中取得高分,展示了广泛的知识储备和理解能力。
  3. 编码能力(HumanEval):在编码测试中表现突出,能够解决复杂的编程问题,显示了高水平的编程和调试能力。

速度

Claude 3.5 Sonnet的运行速度是Claude 3 Opus的两倍。这种性能提升使其非常适合处理复杂任务,例如:

成本效益

Claude 3.5 Sonnet的定价为每百万输入tokens 3美元和每百万输出tokens 15美元,具有200K tokens的上下文窗口。其性价比高,适合中高端应用场景。

编码性能

在内部的编程评估中,Claude 3.5 Sonnet解决了64%的问题,而Claude 3 Opus解决了38%。这表明Claude 3.5 Sonnet在以下方面的显著改进:

视觉性能

Claude 3.5 Sonnet在标准视觉基准测试中表现卓越,特别是在需要视觉推理的任务中,如:

Artifacts功能

Artifacts功能是Claude 3.5 Sonnet引入的一种新特性,让用户更方便地与AI生成的内容互动。简单来说,它就像是一个智能助手,可以帮你创建和编辑各种内容,并且让你在一个动态的工作空间里实时查看和修改这些内容。

预览版的Artifacts也已经上线,可以生成文档、代码、图表、矢量图等。

当你使用Claude生成内容(例如代码片段、文本文档或网站设计)时,这些生成的内容会出现在一个专门的窗口中,称为“Artifacts窗口”。你可以在这个窗口中查看、编辑和进一步完善这些内容。

举个例子:

假设你在开发一个网站,你需要Claude帮你生成一些HTML代码。你向Claude请求生成代码后,这段代码会出现在Artifacts窗口中。你可以在这个窗口中直接修改这段代码,看到实时效果,并将修改后的代码集成到你的网站项目中。

以下是它的主要特点和应用场景:

  1. 实时生成和编辑

    • 当你让Claude生成一些内容,比如代码片段、文档或网站设计,Claude会在一个专门的窗口中展示这些内容。
    • 你可以直接在这个窗口里查看、修改和完善这些内容,就像在一个实时的工作台上进行创作一样。
  2. 方便整合到项目中

    • 不管你是在编写代码、撰写文档还是设计网站,Artifacts功能都能帮助你把Claude生成的内容无缝地集成到你的项目里。
    • 你不再需要复制粘贴,可以直接在Claude提供的动态工作空间中进行工作。
  3. 提升工作效率

    • 通过Artifacts功能,你可以更高效地利用Claude的智能创作能力,不需要频繁地在不同工具和窗口之间切换。
    • 这种集中化的工作方式大大提高了工作效率,特别适合需要频繁修改和调整内容的任务。
  4. 团队协作

    • 虽然目前主要是个人使用,但未来Claude还计划扩展Artifacts功能,以支持团队协作。
    • 团队成员可以在同一个工作空间中共享和编辑内容,提高团队的协作效率。
退出移动版