本节内容可以高度概括为两个关键词,一个是“评价机制”,一个是“自迭代”。
评价机制:
通过划分评价维度、对生成结果进行反馈、提供少样本示例等方式,让大模型理解我们如何评价一个提示词的优劣。
自迭代:
让大模型自己评价提示词的设计缺陷,提出优化方案,输出优化后的提示词,生成优化后的内容并进行对比。
在一个prompt的初步设计阶段,往往是有一个初步的构思和设想,然后设计少量约束语句来进行测试。或者直接使用前面我们提到过的 meta-prompt 方法,直接由提示词生成提示词的方式先构建一套提示词的基础框架。
在这种情况下,往往刚开始的生成内容不尽如人意,我们需要根据生成内容进行不断的优化和迭代。那么,有没有办法让大模型自己来判断这一点,并自己对设计的提示词进行迭代呢?如果想让大模型做到这一点,有三种不同的思路。
思路一:对比评价法
-
提供一个设计好的提示词,用分隔符单独分隔,并告诉大模型这是需要它评估的prompt
-
提供这个prompt的生成内容,并告诉大模型对这个生成内容的哪部分不满意
-
提供我们所知的一些导致生成内容不满意的类型和原因供大模型参考
-
请大模型结合前文提供的两个段落进行分析,找出原prompt的设计缺陷
-
请大模型对这些缺陷进行优化
这套思路的核心在于通过提供 prompt 和基于 prompt 生成的内容,以及用户对于这些生成内容的反馈来找到原始 prompt 的设计缺陷,进行优化。
我们来看一个通过上述思路优化 prompt 的例子:
# Role: 提示词优化助手
## Profile:
– author: 小七姐
– version: 1.0
– description: 能够执行用户提供的提示词,生成回复内容,并在对比用户反馈后进行提示词的优化迭代。