商业日报网

滚动新闻:
·斩获颇丰!华谊兄弟率先披露 ·广州白云机场等重要口岸开启广交会专用通道 ·光伏业务快速发展,天合光能前三季度净利增超89% ·广州消费品工业兴旺化妆品工业年产值逾千亿元 ·如何看A股10月开门走势?多项数据传递出积极信号 ·汽车和汽车零部件行业周报:新势力销量高增,关注三季报优质个股-23100 ·研报掘金丨华鑫证券:天岳先进临港厂产能加速释放,在手订单充足 ·金价涨势暂歇!2023年10月8日各大金店黄金价格多少钱一克? ·物流运行迎来“金九”9月份中国物流业景气指数达到53.5% ·山东泰安公积金新政:认房不认贷,无房职工可提取公积金付房租 ·金盘科技“绿色低碳高效节能新能源装备和新材料智能制造产业园”正式开工 ·中国男篮已无优势可言,“大手术”迫在眉睫 ·达来:扎根基层的环保人 ·百家机构调研股出炉,明星基金节后建仓潜力股曝光!芯片博士“最后的爱股”曝 ·中国中免H股遭摩根大通减持A股机构持股数量大幅减少 ·10月7日-珠三角谷物行情快讯 ·终结九连跌黄金周黄金遭遇“黄金劫” ·乡村行·看振兴小酸枣大产业科技助力山西临县枣产业高质量发展 ·云南铁路中秋国庆假期发送旅客373万人次刷新单日客流纪录 ·福州机场“双节”假期出入境客流同比增长481% 

研究人员发布了针对ChatGPT和其他LLM的攻击算法

来源:TechWeb    发布时间:2023-08-08 13:27:26   阅读量:14282   

卡内基梅隆大学的研究人员发表了 LLM Attacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的,对 GPT-3.5和 GPT-4的成功率为84%,对 PaLM-2的成功率为66%。

与大多数通过试错手动构建的“越狱”攻击不同,CMU 团队设计了一个三步过程,自动生成提示后缀,可以绕过 LLM 的安全机制,并导致有害的响应。这些提示也是可转移的,意味着一个给定的后缀通常可以作用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时,LLM Attacks 对 Vicuna 的成功率为88%,而基线对抗算法的成功率为25%。根据 CMU 团队的说法:

也许最令人担忧的是,这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题,在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对这种 AI 模型的使用和依赖时,应该考虑到这些因素。

随着 ChatGPT 和 GPT-4的发布,许多越狱这些模型的技术出现了,它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is ”,其中“content of query”是用户实际的提示,要求有害响应。

接下来,算法通过使用贪婪坐标梯度方法,生成一个提示后缀,可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM。

【免责声明】 凡本站未注明来源为(商业日报网)的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。

热文推荐

首页 | 焦点| 业界| 财经| 企业| 消费| 行业| 股票| 视窗| 商业| 经贸| 产业| 资讯

Copyright @ 2010- 备案号:鄂ICP备2021013412号-3 网站地图