近日,據TechCrunch獲得的內部通信內容顯示,谷歌在改進其Gemini人工智能模型的過程中,承包商被要求將其答案與Anthropic的Claude模型進行比較。這一做法引發了外界對谷歌是否獲得Anthropic授權使用Claude進行測試的合規性質疑。
在當前科技公司競相開發更優秀AI模型的背景下,模型性能的評估通常通過行業基準測試進行。然而,Gemini的承包商需要根據多個標準(如真實性和冗長性)對看到的每個回復進行評分,最多有30分鐘的時間來判斷Gemini或Claude的答案哪個更好。
內部聊天記錄顯示,承包商注意到Claude的回復似乎比Gemini更強調安全性。一位承包商指出:“在所有AI模型中,Claude的安全設置是最嚴格的。”在某些情況下,Claude不會回應其認為不安全的提示詞,而Gemini的回復則因包含“裸體和束縛”而被標記為“嚴重的安全違規”。
Anthropic的商業服務條款禁止客戶未經Anthropic批準訪問Claude“以構建競爭產品或服務”或“訓練競爭AI模型”。谷歌是Anthropic的主要投資者。對此,谷歌DeepMind(負責Gemini)發言人McNamara表示,DeepMind確實會“比較模型輸出”以進行評估,但并未在Anthropic模型上訓練Gemini。他強調:“任何關于我們使用Anthropic模型訓練Gemini的說法都是不準確的。”