Polaris：媲美人类护士的医疗护理保健模型能和患者进行多轮语音对话

by 小互
8月 ago

Polaris是由Hippocratic AI 开发的一款高度专注于安全、用于医疗保健的大语言模型（LLM）系统，Polaris设计和功能与以往主要关注简单问答任务的医疗LLM有所不同。

Polaris 的开发目的是创建一个既能够安全有效地与患者进行长时间、多轮次的语音对话，又能提供专业准确医疗建议的AI系统。通过这种复杂的“星座”架构，Polaris2 旨在提升医疗AI对话的质量，使其更接近于真人医护人员与患者之间的自然交流。

Hippocratic AI已经发布了其Polaris 二代模型：Polaris2

Polaris2 的架构如下：

星座架构： Polaris2 采用了一种独特的星座架构，它由一个主要的大语言模型（LLM）和多个专业支持模型组成。这些支持模型增强了系统的医疗准确性和安全性，专门针对提高患者对话的质量和减少错误信息的产生。

一万亿参数星座系统： Polaris2 不是一个单一的大语言模型，而是由多个（数个亿参数规模的）模型组成的系统。这些模型共同工作，形成了一个“星座”结构。这种设计允许系统在处理医疗对话时具有更高的灵活性和专业性。
主要状态性代理： 系统中有一个主要的代理（模型），它的任务是推动与患者的互动对话，保证交流流畅且对患者友好。这个代理具有“状态性”，意味着它能够根据对话历史和上下文调整自己的响应，以更自然、更贴合实际需求的方式进行交流。
专家支持代理： 为了应对医疗领域的复杂性，除了主要代理外，Polaris2 还包括多个专业支持代理。这些支持代理负责特定的医疗任务，如隐私与合规性专家、药物管理专家、实验室与生命体征分析专家以及营养专家。这些专家系统能够提供特定医疗任务的深度支持。这些代理的存在，是为了确保提供的医疗建议和信息在专业性和准确性方面符合医疗标准，同时减少误导信息（即幻觉）的产生。
迭代共同训练： Polaris2 的训练采用了迭代共同训练协议，优化多样化的目标。这种训练方法使得各个代理能够在相互作用和学习中提高性能，同时保持对医疗对话的整体质量和准确性的控制。
数据和对话对齐： Polaris2 的训练数据包括专有数据、临床护理计划、医疗监管文件、医学手册和其他医学推理文档。系统还使用真实和模拟的医疗对话，这些对话在模型训练中被用来调整模型，使其能够以医疗专业人员的方式进行交流。
安全和准确性： Polaris2 在设计上强调了安全性和医疗准确性。它通过组合基于证据的内容训练、多模型协作架构和内置的安全防护措施，显著减少了错误信息的产生，并确保了医疗对话的质量。

主要能力

通过其独特的星座架构和专业代理组合，能够执行一系列医疗相关的复杂任务，具体包括：

实时多轮语音对话： 能够与患者进行长时间的、多轮次的自然语音对话，以支持复杂的医疗咨询和指导。
医疗信息提供和解释： 向患者提供准确的医疗信息，包括药物使用指南、治疗方案解释以及健康建议，帮助患者更好地理解和遵循医生的指导。
隐私与合规性检查： 确保与患者交流的过程中遵守医疗保健行业的隐私和合规性要求，包括HIPAA等法规。
药物管理和咨询： 提供药物相关的专业建议，包括药物剂量确认、非处方药物（OTC）的安全使用，以及药物相互作用的警告。
实验室与生命体征分析： 分析患者的实验室报告和生命体征数据，帮助患者解读检查结果，监控健康状况的变化。
营养建议： 根据患者的健康状况和特定医疗需求，提供个性化的饮食和营养建议。
病历和政策查询： 帮助患者理解和导航复杂的医院政策，以及他们的电子健康记录（EHR），提高医疗服务的透明度和患者的参与度。
患者关系建设： 通过提供有同理心和良好床边礼仪的对话，建立与患者的信任和融洽关系，促进更好的医患沟通。
错误分析和人类干预： 在必要时，Polaris2 能够识别潜在的错误并启动内置的安全防护措施，包括引入人类专业人员进行干预，以确保医疗对话的准确性和安全性。

评估结果

Polaris2 的评估结果显示，它在医疗安全、临床准备、患者教育、对话质量和床边礼仪等多个维度上与人类护士表现相当，甚至在某些关键维度上超越了人类护士。这些评估是通过招募超过1100名美国执照护士和130多名美国执照医生进行的综合评估来完成的，这些专业人员通过模拟患者的角色，对Polaris2系统进行了端到端的对话评估，并在多个细致的度量标准上对系统进行了评分。

具体评估结果包括：

医疗安全： Polaris2 在提供医疗建议和信息时展现了高度的准确性和安全性，与经验丰富的人类护士持平。
临床准备： 系统显示出了良好的临床准备能力，能够有效地支持患者在临床流程中的需要，如预约、治疗指导和后续跟进。
患者教育： Polaris2 能够以易于患者理解的方式提供医疗信息，增强了患者对其健康状况和治疗方案的理解。
对话质量和床边礼仪： 评估结果表明，Polaris2 能够以富有同理心和礼貌的方式与患者进行交流，建立信任和融洽的医患关系。

此外，Polaris2 在特定的专家支持代理任务中展现了其优越性，如药物管理、实验室结果解释等，其性能显著优于更大的通用LLM（如GPT-4）和同一中等大小类别的LLM（如LLaMA-2 70B）。

与真实护士进行比较：

专业基准的比较：

通过三种方式评估这种架构的能力：与真人护士在主观因素上的比较、与其他大型语言模型（LLMs）和真人护士在关键医疗能力上的比较、以及与真人护士在整体系统安全性上的比较。

专业基准的比较包括：

实验室和生命体征专家基准： 包括识别实验室参考范围、纵向实验室分析、实验室/药物相互作用等，这些任务针对医疗特定情境，解决了大型语言模型在处理特定医疗数据方面的不足。
药物专家基准： 包括处方依从性、条件特定禁用的非处方药物（OTC）、OTC毒性、药物误识别等，专注于提高药物使用的安全性和准确性。
营养专家基准： 针对特定健康状况的餐厅菜单推荐，解决了在线菜单难以解析和缺乏必要营养信息的问题，提供具体条件、实验室值和临床宏观营养指导下的特定菜单建议。
隐私和合规性专家基准： 包括身份验证，以及医院和支付者政策专家基准，如医院和支付者特定政策，处理大型语言模型倾向于混合多个医院政策的问题。