Google发表了一篇论文,介绍了一种新型的模型窃取攻击方法,这种方法能够从像OpenAI的ChatGPT或Google的PaLM-2这样的黑箱生产语言模型中提取精确、重要信息。
这种方法仅需不到20美元,就能攻击并提取出OpenAI的ada和babbage语言模型的整个投影矩阵。即使是那些设计为难以从外部获取内部信息的“黑箱”模型,也可以通过精心设计的查询被部分“解密”。
Google发表了一篇论文,介绍了一种新型的模型窃取攻击方法,这种方法能够从像OpenAI的ChatGPT或Google的PaLM-2这样的黑箱生产语言模型中提取精确、重要信息。
这种方法仅需不到20美元,就能攻击并提取出OpenAI的ada和babbage语言模型的整个投影矩阵。即使是那些设计为难以从外部获取内部信息的“黑箱”模型,也可以通过精心设计的查询被部分“解密”。