谷歌近日推出Gemini 2.5計算機使用模型,該人工智能工具通過瀏覽器界面實現自動化操作。模型運用視覺理解能力分析用戶指令,可完成表單填寫、頁面元素拖放等13項網頁操作,在多項基準測試中表現優于現有方案。
該技術適用于用戶界面測試及無API接口系統操作,已通過Google AI Studio向開發者開放。與OpenAI同日發布的ChatGPT智能體形成技術競爭,后者專注于復雜任務代理功能。谷歌特別說明,當前模型僅針對瀏覽器環境優化,暫不支持操作系統層級的控制。
Browserbase平臺同步推出在線演示,用戶可觀摩模型執行"玩2048游戲"等實時任務。這標志著AI正逐步突破人機交互邊界,為自動化操作開辟新的技術路徑。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。