據外媒TechXplore報道,Anthropic、英國AI安全研究院與艾倫·圖靈研究所聯合研究發現,僅需約250份惡意文檔,即可在大語言模型中成功植入“后門”。盡管訓練數據多來自公開網絡,使模型具備強大語言能力,但也因此面臨數據投毒風險。此前認為模型規模越大越難被污染,但實驗顯示,從6億到130億參數的模型均難以抵御此類攻擊。研究人員通過控制惡意文件分布與注入時機進行防御測試,結果表明增加干凈數據無法稀釋風險。研究強調,AI發展亟需從追求規模轉向強化安全機制。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。