DeepSeek发布开源模型DeepSeek-Coder-V2 在代码和数学能力上超越了GPT-4-Turbo

DeepSeek宣布发布开源模型DeepSeek-Coder-V2,该模型在代码和数学能力上超越了GPT-4-Turbo,成为全球首个在这些领域竞争的开源模型。DeepSeek-Coder-V2基于DeepSeek-V2的模型结构,总参数236B,激活参数21B,具有全球顶尖的代码和数学能力,并在多个排行榜上位居全球第二,次于GPT-4o和GPT-4-Turbo之间。同时,它在中英通用能力上也表现出色,位列国内第一梯队。

DeepSeek-Coder-V2与DeepSeek-V2相比,各有所长,前者更擅长理科,后者更擅长文科。该模型和相关代码、论文全部开源,免费商用,无需申请,提供两种规模:236B和16B,并支持API服务和本地私有化部署。

全球顶尖的代码、数学能力

DeepSeek-Coder-V2 沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。
国内第一梯队的通用能力
在拥有世界前列的代码、数学能力的同时,DeepSeek-Coder-V2 还具有良好的通用性能,在中英通用能力上位列国内第一梯队。

模型架构

DeepSeek-Coder-V2采用专家混合(Mixture-of-Experts, MoE)架构,专门设计用于增强代码和数学推理能力。以下是该模型的一些关键架构特点:

模型规模

DeepSeek-Coder-V2提供了两种规模的模型,分别为236B参数和16B参数,满足不同的应用需求:

DeepSeek-Coder-V2 和 DeepSeek-V2 的差异
虽然 DeepSeek-Coder-V2 在评测中综合得分更高,但在实际应用中,两个模型各有所长。DeepSeek-V2 是文科生,DeepSeek-Coder-V2 是理科生,精通的技能点不同:

API服务

DeepSeek-Coder-V2 API 支持 32K 上下文,价格和 DeepSeek-V2 一致,还是大家熟悉的低价:

评估结果

在标准的基准测试中,DeepSeek-Coder-V2的性能优于一些闭源模型,例如GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro,特别是在代码生成和数学推理的测试中。

1. 代码生成

在多个代码生成基准测试中,DeepSeek-Coder-V2表现优异,特别是在HumanEval、MBPP+、LiveCodeBench和USACO等测试中,显著超越了许多闭源和开源模型。

模型 参数量 HumanEval MBPP+ LiveCodeBench USACO
GPT-4o-0513 闭源 91.0 73.5 43.4 18.8
GPT-4-Turbo-0409 闭源 88.2 72.2 45.7 12.3
GPT-4-Turbo-1106 闭源 87.8 69.3 37.1 11.1
DeepSeek-Coder-V2-Instruct 236B 90.2 76.2 43.4 12.1
DeepSeek-Coder-V2-Lite-Instruct 16B 81.1 68.8 24.3 6.5

2. 代码补全

在RepoBench和HumanEval FIM测试中,DeepSeek-Coder-V2也显示出强大的代码补全能力。

模型 参数量 RepoBench (Python) RepoBench (Java) HumanEval FIM
GPT-4o-0513 闭源 46.1 45.7 86.4
DeepSeek-Coder-V2-Instruct 236B 43.1 44.8 86.4
DeepSeek-Coder-V2-Lite-Base 16B 38.9 43.3 86.4

3. 代码修复

在Defects4J和SWE-Bench测试中,DeepSeek-Coder-V2的表现也十分突出。

模型 参数量 Defects4J SWE-Bench Aider
GPT-4o-0513 闭源 26.1 26.7 72.9
GPT-4-Turbo-0409 闭源 24.3 18.3 63.9
DeepSeek-Coder-V2-Instruct 236B 21.0 12.7 73.7
DeepSeek-Coder-V2-Lite-Instruct 16B 9.2 0.0 44.4

4. 数学推理

在GSM8K、MATH、AIME 2024和Math Odyssey等数学推理基准测试中,DeepSeek-Coder-V2表现卓越。

模型 参数量 GSM8K MATH AIME 2024 Math Odyssey
GPT-4o-0513 闭源 95.8 76.6 2/30 53.2
GPT-4-Turbo-0409 闭源 93.7 73.4 3/30 46.8
DeepSeek-Coder-V2-Instruct 236B 94.9 75.7 4/30 53.7
DeepSeek-Coder-V2-Lite-Instruct 16B 86.4 61.8 0/30 44.4

5. 自然语言处理

在BBH、MMLU、ARC等自然语言处理基准测试中,DeepSeek-Coder-V2也取得了令人瞩目的成绩。

测试 领域 DeepSeek-V2-Lite Chat DeepSeek-Coder-V2-Lite Instruct DeepSeek-V2 Chat DeepSeek-Coder-V2 Instruct
BBH 英文 48.1 61.2 79.7 83.9
MMLU 英文 55.7 60.1 78.1 79.2
ARC-Easy 英文 86.1 88.9 98.1 97.4
ARC-Challenge 英文 73.4 77.4 92.3 92.8
TriviaQA 英文 65.2 59.5 86.7 82.3
NaturalQuestions 英文 35.5 30.8 53.4 47.5
CLUEWSC 中文 80.0 76.5 89.9 85.9
C-Eval 中文 60.1 61.6 78.0 79.4
CMMLU 中文 62.5 62.7 81.6 80.9

6. 上下文窗口

在Needle In A Haystack (NIAH)测试中,DeepSeek-Coder-V2在所有上下文窗口长度(最长达128K)上表现出色。

模型下载

在线体验: coder.deepseek.com

GitHub:https://github.com/deepseek-ai/DeepSeek-Coder-V2

技术报告:
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
退出移动版