大语言模型(LLMs)在许多自然语言任务中展示了令人印象深刻的能力。然而,在执行多步推理时,自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。
Skywork AI和南洋理工大学提出了一种通用、灵活的框架:Q* ,用于通过深思熟虑的规划来指导大语言模型(LLMs)的解码过程,以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数,Q*能够有效地指导LLMs选择最有希望的下一步,而无需为每个任务微调LLMs,从而避免了大量的计算开销和可能的性能退化。
大语言模型(LLMs)在许多自然语言任务中展示了令人印象深刻的能力。然而,在执行多步推理时,自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。
Skywork AI和南洋理工大学提出了一种通用、灵活的框架:Q* ,用于通过深思熟虑的规划来指导大语言模型(LLMs)的解码过程,以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数,Q*能够有效地指导LLMs选择最有希望的下一步,而无需为每个任务微调LLMs,从而避免了大量的计算开销和可能的性能退化。