UltraMedical:一个大规模、高质量的生物医学指令数据集

UltraMedical是由清华大学, 华盛顿大学, 南昌大学第一附属医院, 上海交通大学, Frontis.AI共同建高质量的生物医学指令数据集和使用先进的对齐技术训练语言模型,致力于在生物医学领域开发专门通才模型。这些模型不仅在处理特定问题时表现优异,还能在跨领域问题中提供有效的解决方案。

UltraMedical数据集是一个大规模、高质量的生物医学指令集合,包含410,000个合成和手工整理的样本,结合手工和合成的提示,其中约100K条指令带有偏好注释。

数据集详细信息

数据集包含各种医学考试题目、PubMed文献研究、开放式问题等,并通过多种高级LLM进行注释和偏好打分。

数据集构成

1. 数据集组成原则

2. 数据注释

3. 数据集构建方法

4.详细示例

示例1

示例2

基于UltraMedical的Llama-3微调

UltraMedical项目在Llama-3系列模型上进行了全面的微调和优化,主要包括监督微调(SFT)、偏好优化(DPO和KTO)以及奖励模型训练和迭代偏好学习。

以下是具体的过程和方法:

1. 监督微调 (Supervised Fine-Tuning, SFT)

过程

方法

2. 偏好学习 (Preference Learning)

数据集

优化技术

3. 奖励建模 (Reward Modeling)

目标

训练过程

4. 迭代偏好学习 (Iterative Preference Learning)

在线偏好学习

最佳N采样 (Best of N Sampling)

5.实验结果

基于Llama-3系列进行微调的UltraMedical模型在多个医学基准测试中表现出色,特别是在MedQA、MedMCQA和MMLU等基准测试中,显著优于许多现有的模型。这些结果表明,通过高质量的数据集和多步优化策略,可以大幅提升开源医学模型的性能。

评估基准

1. 医学多项选择题结果

模型 MedQA MedMCQA PubMedQA MMLU-临床知识 MMLU-医学遗传学 MMLU-解剖学 MMLU-专业医学 MMLU-大学生物学 MMLU-大学医学 MMLU平均
Llama-3-8B 60.9 50.7 73.0 72.1 76.0 63.0 77.2 79.9 64.2 68.56
Llama-3-8B UltraMedical 73.3 61.5 77.0 78.9 78.0 74.1 83.8 78.5 71.7 75.20
Llama-3-8B UltraMix 74.5 62.0 79.2 75.8 83.0 73.3 83.5 81.2 70.5 75.90
Llama-3-70B 79.9 69.6 75.8 87.2 93.0 76.3 88.2 92.4 81.5 82.66
Llama-3-70B UltraMedical 82.2 72.3 78.8 86.4 91.0 82.2 92.3 89.6 86.7 84.62
Llama-3-70B UltraMix 83.7 73.0 77.6 84.9 94.9 80.7 91.9 91.0 81.5 84.27

2. 通用领域基准测试结果

模型 K-QA MT-Bench AlpacaEval MMLU (LC%) GPQA (WR%) GSM8K (5-shot)
Llama-3-8B 0.6037 0.1940 8.10 22.9 22.6 68.4
Llama-3-8B UltraMedical 0.7242 0.0945 7.64 30.7 31.9 68.1
Llama-3-8B UltraMix 0.7242 0.0945 7.64 30.7 31.9 68.1
Llama-3-70B 0.6545 0.1357 9.01 34.4 33.2 82.0
Llama-3-70B UltraMedical 0.6077 0.0896 8.54 33.0 32.1 77.2
Llama-3-70B UltraMix 0.6077 0.0896 8.54 33.0 32.1 77.2

 数据混合策略的影响

偏好优化的有效性

 医学与通用领域性能权衡

3.两款模型具体表现

UltraMedical训练和发布了一系列小规模的语言模型,其中表现最好的模型是Meta-Llama-3-8B。这些模型在多个流行的医学基准测试中表现优异,包括MedQA、MedMCQA、PubMedQA和MMLU-Medical。

Demo: Huggingface Space – Huggingface: Llama-3-8B-UltraMedical

模型表现统计

版本 模型 平均成绩 MedQA MedMCQA PubMedQA MMLU.ck MMLU.mg MMLU.an MMLU.pm MMLU.cb MMLU.cm
2024.04 Llama-3-8B-UltraMedical (Ensemble) 77.77 77.5 63.8 78.2 77.4 88.0 74.8 84.6 79.9 75.7
2024.04 Llama-3-8B-UltraMedical (Greedy) 75.20 73.3 61.5 77.0 78.9 78.0 74.1 83.8 78.5 71.7
2024.04 OpenBioLM-8B 72.48 59.0 56.9 74.1 76.1 86.1 69.8 78.2 84.2 68.0
2024.04 Llama-3-8B-Instruct (Ensemble) 71.23 62.4 56.5 75.8 72.5 84.0 71.1 70.6 80.6 67.6
2024.04 Llama-3-8B-Instruct (Greedy) 68.56 60.9 50.7 73.0 72.1 76.0 63.0 77.2 79.9 64.2
2024.04 Internist-7B 67.79 60.5 55.8 79.4 70.6 71.0 65.9 76.1 63.0
2024.02 Gemma-7B 64.18 47.2 49.0 76.2 69.8 70.0 59.3 66.2 79.9 60.1
2024.03 Meerkat-7B (Ensemble) 63.94 74.3 60.7 61.9 70.4 61.5 69.5 55.4 57.8
2023.03 MedAlpaca 58.03 41.7 37.5 72.8 57.4 69.0 57.0 67.3 65.3 54.3
2024.02 BioMistral-7B 57.26 46.6 45.7 68.1 63.1 63.3 49.9 57.4 63.4 57.8

 

大规模语言模型 (70B级别)

UltraMedical还计划发布一系列大规模的语言模型,如Llama-3-70B-UltraMedical。这些模型预计将在未来几个月内发布。

模型表现统计

版本 模型 平均成绩 MedQA MedMCQA PubMedQA MMLU.ck MMLU.mg MMLU.an MMLU.pm MMLU.cb MMLU.cm
2023.11 GPT-4 (Medprompt) 90.76 90.2 79.1 82.0 95.8 98.0 89.6 95.2 97.9 89.0
2023.06 GPT-4-base (5-shot) 87.00 86.1 73.7 80.4 88.7 97.0 85.2 93.8 97.2 80.9
2023.04 Med-PaLM 2 (best) 86.66 86.5 72.3 81.8 88.7 92.0 84.4 95.2 95.8 83.2
2024.04 OpenBioLM-70B 86.06 78.2 74.0 79.0 92.9 93.2 83.9 93.8 93.8 85.7
2023.04 Med-PaLM 2 (ER) 85.46 85.4 72.3 75.0 88.7 92.0 84.4 92.3 95.8 83.2
2023.03 GPT-4 (0-shot CoT) 85.36 85.8 72.3 70.0 90.2 94.0 84.4 94.5 93.8 83.2
2023.03 GPT-4 (5-shot) 83.69 81.4 72.4 75.2 86.4 92.0 80.0 93.8 95.1 76.9
2024.04 Llama-3-70B-Instruct 82.66 79.9 69.6 75.8 87.2 93.0 76.3 88.2 92.4 81.5
2022.10 Flan-PaLM (best) 74.70 67.6 57.6 79.0 80.4 75.0 63.7 83.8 88.9 76.3
2024.04 Mixtral-8x22B-Instruct 73.10 63.3 71.4 84.2 89.0 77.0 88.2 88.2 78.0 79.2
2022.11 GPT-3.5-Trubo 67.70 57.7 72.7 53.8 74.7 74.0 65.9 72.8 72.9 64.7
2023.11 Meditron-70B 66.00 57.7 53.8 72.7 66.8 69.0 53.3 71.7 76.4 63.0

 

GitHub:https://github.com/tsinghuac3i/ultramedical

Dataset • Weights • Demo • Paper

退出移动版