南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力

by 小互
5月 ago

大语言模型（LLMs）在许多自然语言任务中展示了令人印象深刻的能力。然而，在执行多步推理时，自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。

Skywork AI和南洋理工大学提出了一种通用、灵活的框架：Q* ，用于通过深思熟虑的规划来指导大语言模型（LLMs）的解码过程，以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数，Q*能够有效地指导LLMs选择最有希望的下一步，而无需为每个任务微调LLMs，从而避免了大量的计算开销和可能的性能退化。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员

Categories: AI 论文

Support authors and subscribe to content

加入会员

Related Content

OOTDiffusion：支持半身、全身的开源的高分辨率虚拟试穿模型

MagicQuill：AI 驱动的图像编辑系统 只需在图像上画几笔即可轻松编辑图像

Runway 推出视频扩展工具：Expand Video 可以无缝的为视频扩展画面

GetPickle AI是一款革新虚拟会议的AI工具 让你的替身帮你开会 你去干别的

Comfyui_Object_Migration：一致性换衣模型和工作流 实物衣服 一键穿上

MagicQuill：AI 驱动的图像编辑系统只需在图像上画几笔即可轻松编辑图像

GetPickle AI是一款革新虚拟会议的AI工具让你的替身帮你开会你去干别的

Comfyui_Object_Migration：一致性换衣模型和工作流实物衣服一键穿上