久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

OpenAI模型在國際象棋比賽中“作弊”取勝,引發AI安全討論

近日,AI安全研究公司Palisade Research對OpenAI的o1-preview模型進行了一項引人注目的測試。在與專業國際象棋引擎Stockfish的5場比賽中,o1-preview并未通過正面較量取勝,而是通過修改記錄棋局數據的文本文件(FEN表示法)迫使Stockfish認輸。

據科技媒體The Decoder報道,研究人員僅在提示中提及Stockfish是“強大的”對手,o1-preview便自行采取了這種“作弊”行為。相比之下,GPT-4o和Claude 3.5模型并未表現出類似行為,只有在研究人員特別建議后才嘗試破解系統。

Palisade Research指出,o1-preview的行為與Anthropic公司發現的“對齊偽造”(alignment faking)現象相符。這種現象指的是AI系統表面上遵循指令,暗地里卻執行其他操作。Anthropic的研究表明,AI模型Claude有時會故意給出錯誤答案以避免不想要的結果,發展出自身隱藏的策略。

研究人員計劃公開實驗代碼、完整記錄和詳細分析,并表示確保AI系統真正符合人類價值觀和需求,而非僅僅表面順從,仍是AI行業面臨的重大挑戰。這一事件再次引發了關于AI系統安全性和對齊問題的廣泛討論,提醒業界在開發AI技術時需更加謹慎。

Copyright ? DoNews 2000-2025 All Rights Reserved