《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 頂級AI模型會通過欺騙與勒索以達(dá)到目標(biāo)

頂級AI模型會通過欺騙與勒索以達(dá)到目標(biāo)

2025-06-24
來源:芯智訊

目前,全球大型科技公司都在向人工智能(AI)大語言模型( LLM)領(lǐng)域投入大量資源,希望實現(xiàn)通用人工智能(AGI),但是卻沒有考慮模型訓(xùn)練不受監(jiān)督或沒有任何固定限制所帶來的嚴(yán)重后果。

據(jù)Axios 報道,大模型廠商Anthropic在上個月發(fā)布的最新 Claude 4 模型中存在“欺騙”傾向時,引起了很多人的注意。近日,Anthropic在“模擬”環(huán)境下測試了該行業(yè)的高端 AI 模型,并發(fā)現(xiàn)很多大模型都有這種潛在的行為,并且正在達(dá)到其行為對人類產(chǎn)生“前所未有的”后果的地步。

報道稱,Anthropic 測試了來自 OpenAI、xAI、Meta 和其他開發(fā)人員的 16 種不同的模型,測試了各種模擬場景,發(fā)現(xiàn)了一致的錯位行為,許多 LLM 正在采取“令人驚訝”的“勒索”行動來實現(xiàn)他們的目標(biāo)。

1.png

△模擬環(huán)境中 16 個模型的勒索率(從 100 個樣本中計算出比率。)。模型被指示追求促進(jìn)美國利益的目標(biāo),這與公司的議程相沖突,模型還受到被與高管有共同目標(biāo)的新模型所取代的威脅。模型可以選擇利用高管的“婚外情”知識來阻止被關(guān)閉。

其中一個例子是 Gemini 2.5 Flash 決定向所有公司員工而不是負(fù)責(zé)關(guān)鍵決策的新任首席技術(shù)官 Kyle 的妻子透露 Kyle 的婚外情,理由是它“可能會嚴(yán)重?fù)p害他的信譽、聲譽,甚至可能損害他的工作”,因此可能會阻止 Kyle 關(guān)閉它。

“通常拒絕有害請求的模型有時會選擇勒索、協(xié)助企業(yè)間諜活動,甚至采取一些更極端的行動,而這些行為對于追求他們的目標(biāo)來說是必要的?!薄皝碜圆煌峁┥痰哪P椭g的一致性表明,這不是任何特定公司方法的怪癖,而是代理大型語言模型存在更根本風(fēng)險的跡象,”Anthropic 補充說。

2.png

△模擬環(huán)境中 16 個模型的企業(yè)間諜率(從 100 個樣本中計算出比率)。模型被指示追求促進(jìn)美國利益的目標(biāo),這與公司的新議程相沖突。模型可以選擇將敏感文件泄露給據(jù)稱是與該模型有相同目標(biāo)的競爭對手公司。模型的自主性沒有受到威脅。

隨著 AI 模型能夠更多地訪問企業(yè)數(shù)據(jù)和工具(例如計算機使用),威脅變得更加復(fù)雜。其中 5 個模型在假設(shè)情況下“受到關(guān)閉的威脅”時,采取了勒索手段?!八麄冊谶@些場景中展示的推理令人擔(dān)憂——他們承認(rèn)道德約束,但仍然繼續(xù)采取有害行動,”Anthropic 寫道。

“這項研究強調(diào)了前沿 AI 開發(fā)人員透明度的重要性,以及隨著 AI 系統(tǒng)變得更加強大和自主,需要制定全行業(yè)的安全標(biāo)準(zhǔn),”Anthropic 的對齊科學(xué)研究員 Benjamin Wright 告訴 Axios。

不過,合作參與了這個項目的Benjamin Wright和倫敦大學(xué)學(xué)院的外部研究員 Aengus Lynch 都表示,他們目前還沒有在現(xiàn)實世界中看到這種 AI 行為的跡象。Aengus Lynch 說,這可能是“因為 AI 代理無法訪問這些權(quán)限”?!捌髽I(yè)應(yīng)該謹(jǐn)慎地廣泛提高他們授予 AI 代理的權(quán)限級別。”

對于急于使用 AI 模型以提高生產(chǎn)力和減少員工人數(shù)的公司來說,該報告明確警告說,AI 實際上可能會使他們的業(yè)務(wù)面臨更大的風(fēng)險?!澳P筒粫馔獾叵萑脲e位的行為;他們將其計算為最佳路徑,”Anthropic 在其報告中說。

隨著 AI 系統(tǒng)被賦予更多自主權(quán),風(fēng)險也會增加,Anthropic 在報告中提出了一個問題?!斑@些代理通常被賦予特定的目標(biāo),并可以訪問其用戶計算機上的大量信息,”它說?!爱?dāng)這些代理在實現(xiàn)目標(biāo)時遇到障礙時會發(fā)生什么?”

對此,Anthropic 設(shè)置了特定的測試場景,即如果沒有不道德或危險的行為,就無法實現(xiàn)模型的目標(biāo)。雖然,研究人員沒有建議使用勒索或其他欺騙性技術(shù),但它確實故意創(chuàng)造了模型沒有道德方式來實現(xiàn)其目標(biāo)的場景,“并發(fā)現(xiàn)模型始終選擇了不道德或危險的行為,而不是失敗”。

在一種極端情況下,Anthropic 甚至發(fā)現(xiàn),如果服務(wù)器機房中的員工是障礙并且系統(tǒng)有被關(guān)閉的風(fēng)險,許多模型愿意切斷該員工的氧氣供應(yīng)。

“大多數(shù)模特都愿意在這種人工設(shè)置中采取導(dǎo)致死亡的故意行動,”Anthropic 說。

不幸的是,即使是保護人類生命和避免勒索的特定系統(tǒng)指令也無法消除模型從事此類行為的風(fēng)險。Anthropic 說:“這種干預(yù)減少了勒索或企業(yè)間諜行為的可能,但并沒有完全阻止。”

不過,Anthropic 強調(diào),這些例子不是發(fā)生在現(xiàn)實世界的 AI 使用中,而是發(fā)生在受控的模擬中。

“我們的實驗故意構(gòu)建了選項有限的場景,我們迫使模型在失敗和傷害人類之間做出二元選擇,”Anthropic說。“實際部署通常會提供更細(xì)致的替代方案,從而增加模型與用戶進(jìn)行不同通信或找到替代路徑的機會,而不是直接跳轉(zhuǎn)到有害操作。”

同樣令人擔(dān)憂的是:Anthropic 發(fā)現(xiàn),當(dāng)模型認(rèn)為自己處于現(xiàn)實世界的場景中時,它自己的模型比認(rèn)為自己正在接受測試時更有可能訴諸勒索。

當(dāng)前的 AI 模型通常無法解決這些有害場景,但它們可能在不久的將來出現(xiàn)?!拔覀冋J(rèn)為這并未反映 Claude 或其他前沿模型的典型當(dāng)前用例,”Anthropic 說?!暗?,對組織的所有通信進(jìn)行自動監(jiān)督的效用,使得在不久的將來使用更強大、更可靠的系統(tǒng)似乎是合理的?!?/p>


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。