阿里云推出 Qwen2.5-Turbo 专为处理长文本场景设计
- 支持 100 万 Token 的上下文长度,相当于 10 部完整小说、150 小时的语音转录或 30,000 行代码。
- 在 Passkey Retrieval 任务中实现 100% 的准确率。
- 处理 100 万 Token 的时间从原来的 4.9 分钟减少到 68 秒,提升 4.3 倍。
- 处理 100 万 Token 的费用为 ¥0.3,与 GPT-4o-mini 相比,在相同成本下处理 3.6 倍的内容。
理解长篇小说,上传The Three-Body Problem
三本中文小说,共69万token
1. 长文本任务性能
超长文本处理能力
- 上下文长度支持 100 万 Token:
- 能处理超长文本,约等于 10 部完整小说或 30,000 行代码。
- Passkey Retrieval 任务:实现 100% 准确率。
- 长文本评估基准测试表现优异:
- RULER 基准:得分 93.1,高于 GPT-4(91.6)和 GLM4-9B-1M(89.9)。
- LV-Eval 和 LongBench-Chat:在多个长文本任务中超越 GPT-4o-mini,处理超长上下文任务能力强。
细节捕获与复杂理解
- 在超长上下文中,能准确捕捉隐藏信息,回答复杂问题,并找到大量上下文中的关键信息。
2. 短文本任务性能
- 短文本任务稳定性:
- 长上下文支持没有影响短文本任务的能力。
- 在短文本基准测试中表现与 GPT-4o-mini 相当。
- 优秀的长文本理解能力:
- 在复杂的长文本任务(如 LV-Eval、LongBench-Chat)中表现优于 GPT-4o-mini。
- 可处理超过 128K Token 的任务场景。
- Qwen2.5-Turbo 支持的上下文长度是 GPT-4o-mini 的 8 倍,但短文本任务性能几乎无损。
3. 推理速度
- 时间优化:
- 在 100 万 Token 输入下,首次生成 Token 的时间缩短至 68 秒,提升 4.3 倍(原为 4.9 分钟)。
- 稀疏注意力机制:显著压缩计算量,效率提升 12.5 倍。
- 硬件兼容性:
- 在多种硬件配置下都能提供稳定的推理速度。
4. 性价比
- 高效计算:
- 相同成本下,Qwen2.5-Turbo 处理的 Token 数是 GPT-4o-mini 的 3.6 倍。
- 每处理 100 万 Token 的费用仅为 ¥0.3。
5. 综合评价
- 优于同类竞品:在长文本任务中超越 GPT-4 和其他同类模型。
- 任务适应性强:兼具长文本理解的深度和短文本处理的精准性。
- 推理效率高:无论在超长文本还是复杂任务中,都能以更快的速度完成。
理解多篇论文 上传7篇关于长上下文LLM论文,长度为171k tokens
官方介绍:https://qwenlm.github.io/blog/qwen2.5-turbo/
在线演示:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
API文档:https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen