DoNews8月18日消息,為了趕超 OpenAI 及其他競爭對手,Google 的 CEO 桑達爾·皮查伊(Sundar Pichai)于 4 月合并了兩個具有不同文化和代碼的大型人工智能團隊——「Google Brain」和「DeepMind」。
據 The Information,新合并的「AI SWAT」團隊計劃于秋天發布一組大型機器學習模型「Gemini」,據開發人員透露,Gemini 預計將使Google 能夠制造出競爭對手無法制造的產品。
彭博社風投分支 Bloomberg Beta 的 AI 初創公司投資人詹姆斯·錢匹(James Chami)表示:「似乎終于有模型能與 GPT-4 旗鼓相當了」。
Gemini 開發人員表示,Gemini 不僅能像 GPT-4 一樣可以進行文本對話,還融合了 Midjourney 和 Stable Diffusion 的能力,能夠生成圖像。Gemini 的圖像能力此前還從未有過報道。
另外,它還能提供分析圖表、創建帶有文本描述的圖形、使用文本或語音命令控制軟件。
Google 把重注押在了 Gemini 身上,Gemini 會為 Bard 聊天機器人提供動力、推動 Google Docs、Slides 等企業級應用。
谷歌還希望通過云服務器租賃服務,向開發者收取訪問 Gemini 的費用。
據報道,Google 對 Gemini 進行了大量 YouTube 視頻的訓練。Gemini 還可以把音頻和視頻集成到模型本身,形成多模態能力,許多研究人員認為這是 AI 的下一個前沿領域。
使用 YouTube 內容,還可以幫助 Google 開發更先進的文本轉視頻軟件,根據用戶想看的內容描述,自動生成詳細的視頻。
這類似于 Google 支持的初創公司 RunwayML 正在開發的技術,好萊塢和內容創作者正在密切關注此類軟件的發展。
Google Brain 和 DeepMind 的合并,令一些參與 Gemini 的工程師感到驚訝。合并后的團隊由 DeepMind 首席執行官戴密斯·哈薩比斯(Demis Hassabis)領導。
知情人士稱,DeepMind 的兩位高管奧里奧爾·溫亞爾斯( Oriol Vinyals)和 Koray Kavukcuoglu 與前谷歌大腦負責人杰夫?迪恩(Jeff Dean)一起負責 Gemini 的開發。他們將監督數百名參與 Gemini 開發的員工。
組織合并后,除了人員安排問題, Gemini 團隊在開發過程中還面臨著巨大的挑戰,如確定可以使用哪些數據來訓練模型。
盡管如此,谷歌前高管、風險投資公司法利思投資創始人艾丁·森庫特( Aydin Senkut)表示,Gemini的發布表明,Google 決心再次走在最前沿,而不是極度保守。他說,「這是正確的方向,終于,他們有了火」。