DoNews8月27日消息,據第一財經報道,當地時間8月26日,谷歌發布了其最新的圖像生成和編輯模型Gemini 2.5 Flash Image,并迅速登頂多個主流圖像排行榜,成為新晉性能冠軍。
上周一款名為“nano-banana”的模型出現在大模型競技場中,開始接受用戶的匿名體驗和打分,目前投票數超過250萬。如今謎底揭曉,“nano-banana”正是Gemini 2.5 Flash Image。
在大模型競技場LMArena的文生圖與圖像編輯兩個場景,谷歌的圖像模型均拿下全球第一,在圖像編輯榜單上模型表現尤為出色,獲得1362的高分,以171分的差距領先第二名flux-1-knotext-max。
知名AI基準測試機構Artificial Analysis同樣獲得了早期訪問權限,并在過去一周以“rex”的化名在競技場中進行了測試。目前谷歌的模型在圖像編輯方面排名第一,超過了OpenAI的GPT-4o和國內阿里的Qwen-Image-Edit,在文生圖方面則略遜于字節Seedream 3.0和GPT-4o,排名第三。
Artificial Analysis還做了一個對比測試,給出了一張圖,讓谷歌、阿里通義和OpenAI三家的模型生成新的照片:在自行車后座上加一名乘客,并將地點更改為內蒙古的草原。
從輸出結果看,千問的圖像模型未能準確進行指令跟隨,在畫面真實度上,谷歌的模型表現則比GPT-4o更為突出。
谷歌稱,Gemini 2.5 Flash Image的核心亮點是圖像編輯能力,這一模型可將多個圖像混合到一幅圖像中,保持高度的角色一致性,還能使用自然語言進行有針對性修改,并充分利用Gemini的世界知識來生成和編輯圖像。