随着o1 模型的发布,OpenAI提出了一种全新的大规模推理模型(Large Reasoning Model,LRM),o1 被设计为弥补LLMs在推理和规划任务中的局限。o1 模型声称通过新的架构和训练方式,能够实现更复杂的推理能力,尤其是在链式推理(Chain-of-Thought)上具备更强的表现。
亚利桑那州立大学的研究人员基于 PlanBench 基准测试,评估了当前 LLMs 和新型 LRM( OpenAI 的 o1 模型)在规划任务中的表现。借助PlanBench基准,评估当前最先进的LLMs和新兴的LRMs在规划任务上的表现,并探讨这些模型在面对复杂推理任务时的优劣。此外,研究还探讨了LRMs的效率、准确性及在现实应用中的可行性和局限性,为未来AI模型的发展提供指导。