南洋理工大学提出Q*框架:可大幅提升大语言模型的多步推理能力

大语言模型(LLMs)在许多自然语言任务中展示了令人印象深刻的能力。然而,在执行多步推理时,自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。

Skywork AI和南洋理工大学提出了一种通用、灵活的框架:Q* ,用于通过深思熟虑的规划来指导大语言模型(LLMs)的解码过程,以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数,Q*能够有效地指导LLMs选择最有希望的下一步,而无需为每个任务微调LLMs,从而避免了大量的计算开销和可能的性能退化。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.
退出移动版