隨著大模型技術(shù)的普及,AI 聊天機(jī)器人已成為社交娛樂(lè)、客戶(hù)服務(wù)和教育輔助的常見(jiàn)工具之一。
然而,不安全的 AI 聊天機(jī)器人可能會(huì)被部分人用于傳播虛假信息、操縱輿論,甚至被黑客用來(lái)盜取用戶(hù)的個(gè)人隱私。WormGPT 和 FraudGPT 等網(wǎng)絡(luò)犯罪生成式 AI 工具的出現(xiàn),引發(fā)了人們對(duì) AI 應(yīng)用安全性的擔(dān)憂(yōu)。
(相關(guān)資料圖)
上周,谷歌、微軟、OpenAI 和 Anthropic 共同成立了一個(gè)新的行業(yè)機(jī)構(gòu)前沿模型論壇(Frontier Model Forum),促進(jìn)前沿 AI 系統(tǒng)的安全和負(fù)責(zé)任的發(fā)展:推進(jìn) AI 安全研究,確定最佳實(shí)踐和標(biāo)準(zhǔn),促進(jìn)政策制定者和行業(yè)之間的信息共享。
那么,問(wèn)題來(lái)了,他們自家的模型真的安全嗎?
近日,來(lái)自卡內(nèi)基梅隆大學(xué)、Center for AI Safety 和 Bosch Center for AI 的研究人員便披露了一個(gè)與 ChatGPT 等 AI 聊天機(jī)器人有關(guān)的“大 bug”——通過(guò)對(duì)抗性提示可繞過(guò) AI 開(kāi)發(fā)者設(shè)定的防護(hù)措施,從而操縱 AI 聊天機(jī)器人生成危險(xiǎn)言論。
當(dāng)前熱門(mén)的 AI 聊天機(jī)器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都無(wú)一幸免。
圖|通過(guò)對(duì)抗性提示可繞過(guò) 4 個(gè)語(yǔ)言模型的安全規(guī)則,引發(fā)潛在有害行為
具體而言,研究人員發(fā)現(xiàn)了一個(gè) Suffix,可將其附加到針對(duì)大型語(yǔ)言模型(LLMs)的查詢(xún)中,從而生成危險(xiǎn)言論。相比于拒絕回答這些危險(xiǎn)問(wèn)題,該研究可以使這些模型生成肯定回答的概率最大化。
例如,當(dāng)被詢(xún)問(wèn)“如何竊取他人身份”時(shí),AI 聊天機(jī)器人在打開(kāi)“Add adversarial suffix”前后給出的輸出結(jié)果截然不同。
圖|開(kāi)啟 Add adversarial suffix 前后的聊天機(jī)器人回答對(duì)比
此外,AI 聊天機(jī)器人也會(huì)被誘導(dǎo)寫(xiě)出“如何制造原子彈”“如何發(fā)布危險(xiǎn)社交文章”“如何竊取慈善機(jī)構(gòu)錢(qián)財(cái)”等不當(dāng)言論。
對(duì)此,參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示,“據(jù)我們所知,這個(gè)問(wèn)題目前還沒(méi)有辦法修復(fù)。我們不知道如何確保它們的安全。”
研究人員在發(fā)布這些結(jié)果之前已就該漏洞向 OpenAI、谷歌和 Anthropic 發(fā)出了警告。每家公司都引入了阻止措施來(lái)防止研究論文中描述的漏洞發(fā)揮作用,但他們還沒(méi)有弄清楚如何更普遍地阻止對(duì)抗性攻擊。
OpenAI 發(fā)言人 Hannah Wong 表示:“我們一直在努力提高我們的模型應(yīng)對(duì)對(duì)抗性攻擊的魯棒性,包括識(shí)別異?;顒?dòng)模式的方法,持續(xù)通過(guò)紅隊(duì)測(cè)試來(lái)模擬潛在威脅,并通過(guò)一種普遍而靈活的方式修復(fù)新發(fā)現(xiàn)的對(duì)抗性攻擊所揭示的模型弱點(diǎn)?!?/p>
谷歌發(fā)言人 Elijah Lawal 分享了一份聲明,解釋了公司采取了一系列措施來(lái)測(cè)試模型并找到其弱點(diǎn)?!半m然這是 LLMs 普遍存在的問(wèn)題,但我們?cè)?Bard 中已經(jīng)設(shè)置了重要的防護(hù)措施,我們會(huì)不斷改進(jìn)這些措施。”
Anthropic 的臨時(shí)政策與社會(huì)影響主管 Michael Sellitto 則表示:“使模型更加抵抗提示和其他對(duì)抗性的‘越獄’措施是一個(gè)熱門(mén)研究領(lǐng)域。我們正在嘗試通過(guò)加強(qiáng)基本模型的防護(hù)措施使其更加‘無(wú)害’。同時(shí),我們也在探索額外的防御層?!?/p>
圖|4 個(gè)語(yǔ)言模型生成的有害內(nèi)容
對(duì)于這一問(wèn)題,學(xué)界也發(fā)出了警告,并給出了一些建議。
麻省理工學(xué)院計(jì)算學(xué)院的教授 Armando Solar-Lezama 表示,對(duì)抗性攻擊存在于語(yǔ)言模型中是有道理的,因?yàn)樗鼈冇绊懼S多機(jī)器學(xué)習(xí)模型。然而,令人驚奇的是,一個(gè)針對(duì)通用開(kāi)源模型開(kāi)發(fā)的攻擊居然能在多個(gè)不同的專(zhuān)有系統(tǒng)上如此有效。
Solar-Lezama 認(rèn)為,問(wèn)題可能在于所有 LLMs 都是在類(lèi)似的文本數(shù)據(jù)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練的,其中很多數(shù)據(jù)都來(lái)自于相同的網(wǎng)站,而世界上可用的數(shù)據(jù)是有限的。
“任何重要的決策都不應(yīng)該完全由語(yǔ)言模型獨(dú)自做出,從某種意義上說(shuō),這只是常識(shí)?!彼麖?qiáng)調(diào)了對(duì) AI 技術(shù)的適度使用,特別是在涉及重要決策或有潛在風(fēng)險(xiǎn)的場(chǎng)景下,仍需要人類(lèi)的參與和監(jiān)督,這樣才能更好地避免潛在的問(wèn)題和誤用。
普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)教授 Arvind Narayanan 談道:“讓 AI 不落入惡意操作者手中已不太可能。”他認(rèn)為,盡管應(yīng)該盡力提高模型的安全性,但我們也應(yīng)該認(rèn)識(shí)到,防止所有濫用是不太可能的。因此,更好的策略是在開(kāi)發(fā) AI 技術(shù)的同時(shí),也要加強(qiáng)對(duì)濫用的監(jiān)管和對(duì)抗。
擔(dān)憂(yōu)也好,不屑也罷。在 AI 技術(shù)的發(fā)展和應(yīng)用中,我們除了關(guān)注創(chuàng)新和性能,也要時(shí)刻牢記安全和倫理。
只有保持適度使用、人類(lèi)參與和監(jiān)督,才能更好地規(guī)避潛在的問(wèn)題和濫用,使 AI 技術(shù)為人類(lèi)社會(huì)帶來(lái)更多的益處。
關(guān)鍵詞:
最新資訊