Google发明了一种新型的模型窃取攻击方法 成功攻破ChatGPT

Google发表了一篇论文,介绍了一种新型的模型窃取攻击方法,这种方法能够从像OpenAI的ChatGPT或Google的PaLM-2这样的黑箱生产语言模型中提取精确、重要信息。

这种方法仅需不到20美元,就能攻击并提取出OpenAI的ada和babbage语言模型的整个投影矩阵。即使是那些设计为难以从外部获取内部信息的“黑箱”模型,也可以通过精心设计的查询被部分“解密”。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版