OpenAI 首席科学家,也是OpenAI o1模型团队的主要成员Hyung Won Chung,在 MIT 的演讲分享中,提出了“不要教导,要激励”的模型训练理念,他认为通过激励模型学习是培养 AGI 系统通用技能的最佳方式。
传统的逐一教导任务方法不适用于大规模任务,反而通过激励结构,如“下一步标记预测”,可以有效促进模型自发学习通用技能。虽然激励机制对人类而言可能需要更长时间,但对于机器可以通过增加计算资源即可加速学习。
OpenAI 首席科学家,也是OpenAI o1模型团队的主要成员Hyung Won Chung,在 MIT 的演讲分享中,提出了“不要教导,要激励”的模型训练理念,他认为通过激励模型学习是培养 AGI 系统通用技能的最佳方式。
传统的逐一教导任务方法不适用于大规模任务,反而通过激励结构,如“下一步标记预测”,可以有效促进模型自发学习通用技能。虽然激励机制对人类而言可能需要更长时间,但对于机器可以通过增加计算资源即可加速学习。