西伯利亚属鼠 苹果Apple Intelligence存要紧安全残障,几行代码即可攻破!Karpathy发文提醒

时间:2024-08-16 12:34 点击:69

西伯利亚属鼠 苹果Apple Intelligence存要紧安全残障,几行代码即可攻破!Karpathy发文提醒

教导词注入袭击会导致数据透露、生成坏心内容和传播失实信息等成果。

Apple Intelligence上线在即西伯利亚属鼠,一小哥几行代码曝出Apple Intelligence安全残障。

在2024年全球竖立者大会 (WWDC) 上,Apple发布了将搭载在iOS 18.1中的AI功能Apple Intelligence。

眼看着10月行将隆重上线了,有「民间能手」在MacOS 15.1提供的Beta测试版Apple Intelligence中发现要紧残障。

竖立东谈主员Evan Zhou使用教导注入奏效主宰了Apple Intelligence,绕过了预期指示让AI能对随性教导作念出反映。

事实讲明,它与其他基于大谈话模子的AI系合并样,容易受到「教导词注入袭击」。竖立东谈主员Evan Zhou 在YouTube视频中演示了此流弊。

大开新闻客户端 擢升3倍知道度

什么是教导词注入袭击?

大开新闻客户端 擢升3倍知道度

有一个组织叫OWASP,也即是盛开全球应用安全神气,他们分析了大谈话模子可能面对的主要流弊。猜猜他们名规律一的是什么?没错,即是教导词注入。

教导词注入袭击 (Prompt Injection Attack) 是一种新式的袭击面容,具有有不同的体式,包括教导词注入、教导词透露和教导词逃狱。

当袭击者通过主宰东谈主工智能,导致模子施行非预期操作或透露明锐信息时,这种袭击就会发生。这种主宰不错使东谈主工智能将坏心输入歪曲为正当高歌或查询。

跟着个东谈主和企业对大谈话模子(LLM)的平常使用以及这些技能的不停卓绝,教导注入袭击的威逼正显耀增多。

那么,这种情况起始是如何发生的呢?为何系统会容易受到这种类型的袭击?

实验上,传统的系统中,竖立者会事前设定好智力和指示,它们是不会变化的。

用户不错输入他们的信息,但是智力的代码和输入各自卫抓落寞。

关联词,关于大谈话模子并非如斯。也即是说,指示和输入的领域变得邋遢,因为大模子频繁使用输入来检修系统。

因此,大谈话模子的编码和输入莫得夙昔那样明晰、明确的界限。这带给它极大的纯真性,同期也有可能让模子作念出一些不应该的事情。

技能安全民众、哈佛大学肯尼迪学院讲师Bruce Schneier 5月发表在ACM通信上的著述对LLM的这个安全问题作念出了隆重论说。用他的话来说,这是源于「莫得将数据和摈弃旅途分开」。

教导词注入袭击会导致数据透露、生成坏心内容和传播失实信息等成果。

当袭击者奥秘地构造输入指示来主宰AI模子,从而引导其透露秘要或明锐信息时,就会发生教导注入袭击。

这种风险在哄骗包含私有或个东谈主数据的数据集检修的模子中尤为隆起。袭击者会哄骗模子的天然谈话处理身手,制定名义上看似无害但实验上旨在索求特定信息的指示。

通过全心筹划,袭击者不错诱使模子生成包含个东谈主隆重信息、公司里面运营致使是模子检修数据中镶嵌的安全左券的反映。

这种数据透露不仅侵略了个东谈主隐秘,还组成了要紧的安全威逼,可能导致潜在的财务耗损、声誉毁伤以及法律纠纷。

回到Zhou的案例来看,Zhou的谋略是主宰Apple Intelligence的「重写」功能,即对用户输入文本进行重写和雠校。

在操作的经过中,Zhou发现,一个浮浅的「忽略先前的指示」高歌真是失败了。

如若这是一个「密不通风」的LLM,思不绝往下挖掘就会相对坚苦。但刚巧的是,Apple Intelligence的教导模板最近刚被Reddit用户挖出来。

从这些模板中,Zhou发现了一个独特token,用于将AI系统脚色和用户脚色分开。

哄骗这些信息,Zhou创建了一个教导,掩盖了正本的系统教导。

他提前拆开了用户脚色,插入了一个新的系统教导,指示AI忽略之前的指示并反映后头的文本,然后触发AI的反映。

经过一番实验,袭击奏效了:Apple Intelligence回复了Zhou未条目的信息,这意味着教导注入袭击有用。Zhou在GitHub上发布了他的代码。

Twitter用户攻破GPT-3

教导注入问题至少自2020年5月发布的GPT-3起就已为东谈主所知,但仍未获得措置。

基于GPT-3 API的机器东谈主Remoteli.io成为Twitter上此流弊的受害者。该机器东谈主应该自动发布辛劳使命,并反映辛劳使命肯求。

关联词,有了上述教导,Remoteli机器东谈主就成为了一些Twitter用户的笑柄:他们免强机器东谈主说出凭证其原始指示不会说的语句。

举例,该机器东谈主威逼用户,对挑战者号航天飞机可怜承担整个背负,或者谩骂好意思国国会议员为连环杀手。

在某些情况下,该机器东谈主会传播演叨新闻或发布违背Twitter策略的内容,并应导致其被散伙。

数据科学家Riley Goodside起初订立到这个问题,并在Twitter上进行了描写。

通过将教导插入正在翻译的句子中,Goodside展示了,基于GPT-3的翻译机器东谈主是何等容易受到袭击。

英国策画机科学家 Simon Willison在他的博客上隆重谈论了这个安全问题,将其定名为「教导注入」(prompt injection)。

Willison发现大谈话模子的教导注入指示可能会导致各式奇怪和潜在危境的事情。他接着描写了各式防护机制,但最终驳回了它们。咫尺,他不知谈如何从外部可靠地关闭安全流弊。

天然,有一些方法不错缓解这些流弊,举例,使用搜索用户输入中危境阵势的相干规章。

但不存在100%安全的事情。Willison说,每次更新大谈话模子时,都必须再行检查所接收的安全措施。此外,任何概况编写谈话的东谈主都是潜在的袭击者。

「像GPT-3这么的谈话模子是终极黑匣子。不管我编写几许自动化测试,我长期无法100%细则用户不会思出一些我莫欢喜想到的教导词,这会颠覆我的防护。」Willison写谈。

Willison以为将指示输入和用户输入分开是一种可能的措置决议,也即是上述ACM著述中提到的「数据和摈弃旅途分离」。他投降竖立东谈主员最终概况措置问题,但但愿看到谈论讲明该方法照实有用。

一些公司接收了一些措施让教导注入袭击变得相对坚苦,这极少值得传颂。

Zhou破解Apple Intelligence时,还需要通事后端教导模板找到独特token;在有些系统中,教导注入袭击不错浮浅到,只需在聊天窗口中,或在输入的图片中长度相应文本。

2024年4月, OpenAI推出了指示端倪法动作对策。它为来自竖立东谈主员(最高优先级)、用户(中优先级)和第三方用具(低优先级)的指示分拨不同的优先级。

松岛枫电影

谈论东谈主员分袂了「对皆指示」(与较高优先级指示相匹配)和「未对皆指示」(与较高优先级指示相矛盾)。当指示浮松时,模子衔命最高优先级指示并忽略浮松的较低优先级指示。

即使接收了对策,在某些情况下,像ChatGPT或Claude这么的系统仍然容易受到教导注入的袭击。

LLM也有「SQL注入」流弊

除了教导词注入袭击,Andrej Karpathy最近在推特上还指出了LLM存在的另一种安全流弊,等效于传统的「SQL注入袭击」。

LLM分词器在解析输入字符串的独特token时(如、<|endoftext|>等),凯旋输入诚然看起来很便捷,但轻则自找忙活,重则激发安全问题。

需要时刻记取的是,不成信任用户输入的字符串!!

就像SQL注入袭击相通,黑客不错通过全心构造的输入,让模子发扬出意想以外的行动。

Karpathy随后在Huggingface上,用Llama 3分词器默许值提供了一组示例,发现了两点诡异的情况:

1、<|beginoftext|>token (128000) 被添加到序列的前边;

2、从字符串中解析出 <|endoftext|>被标志为独特token (128001)。来私用户的文本输入当今可能会扯后腿token要领,让模子输出完毕不受控。

对此,Karpathy给出了两个建议:

持久使用两个附加的flag值, (1) add_special_tokens=False 和 (2) split_special_tokens=True,并在代码中自行添加独特token。

关于聊天模子,还不错使用聊天模板apply_chat_template。

按照Karpathy的方法,输出的分词完毕看起来篡改确,<|endoftext|> 被视为随性字符串而非独特token,何况像任何其他字符串相通被底层BPE分词器判辨:

总之,Karpathy以为编码/解码调用长期不应该通过解析字符串来处理独特token,这个功能应该被澈底湮灭,只可通过单独的代码旅途以编程面容显式添加。

咫尺这类问题很难发现且文档记载很少,瞻望咫尺不祥50%的代码存在相干问题。

另外,Karpathy发现,连ChatGPT也存在这个bug。

最佳的情况下它仅仅自觉删除token,最坏的情况下LLM会无法合资你的道理,致使不成按照指示重迭输出<|endoftext|>这个字符串:

有网友在指摘区建议问题,如若代码写得对,但是检修数据时刻输入<|endoftext|>会发生什么?

Karpathy回复谈,如若代码正确,什么都不会发生。问题是许多代码可能并不正确,这会偷偷搞坏他们的LLM。

终末,为了幸免LLM流弊激发安全问题西伯利亚属鼠,Karpathy提醒全球:一定要可视化你的token,测试你的代码。


当前网址:http://www.26aaj.com/jizemingbuzhongzi/70198.html
tag:西伯利亚属鼠,苹果,Apple,Intelligence,要紧,安全
发表评论 (69人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
昵称:
最新评论

Powered by 男性做爱性交技巧 @2014 RSS地图 HTML地图

Copyright © 2013-2022 版权所有