DoNews12月7日消息,在OpenAI的ChatGPT發布一年之后,谷歌終于不甘示弱,在北京時間12月7日凌晨忽然宣布發布其規模最大、能力最強的 AI 多模態模型 Gemini 1.0。
Gemini 最早公布于 2023 年 5 月的谷歌 I/O 全球開發者大會,由谷歌收購來的 DeepMind 打造,也就是打敗李世石的團隊。
Gemini 原計劃將在秋季發布,但此前傳出谷歌 CEO 桑達爾·皮查伊(Sundar Pichai)因為 Gemini 在非英語體系中的表現欠佳而宣布發布推遲,現在看來他不準備再等了。
據悉,Gemini 1.0 針對不同尺寸進行了優化,分別是:Ultra、Pro 和 Nano(超大杯,大杯和迷你杯)。
其中 Gemini Ultra 適用于高度復雜的任務;Gemini Pro 是通用版,而 Gemini Nano 則被用于各種客戶端設備。
根據谷歌方面的計劃,Pro大杯和Nano迷你杯即日推出,而Ultra超大杯則要等到明年。
根據谷歌方面公布的數據,在被大型語言模型(LLM)研究和開發中廣泛使用的 32 項學術基準中,Gemini Ultra 的性能有 30 項都超過了目前最先進的水平。
Gemini Ultra 的得分率為 90.0%,是第一個在 MMLU(大規模多任務語言理解)測試中超過人類專家的模型。
MMLU 綜合使用了數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試世界知識和解決問題的能力。
在新的 MMMU 基準測試中,Gemini Ultra 也取得了得分率為 59.4% 的優異成績,該基準測試由橫跨不同領域、需要仔細推理的多模態任務組成。
谷歌方面宣稱,Gemini 1.0 主要在以下方面擁有優勢:
復雜的推理:Gemini 1.0 具有復雜的多模態推理能力,可幫助理解復雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數據中發掘難以辨別的知識內容。
理解文本、圖像、音頻及更多:Gemini 1.0 經過訓練,可以同時識別并理解文本、圖像、音頻等,因此它能更好地理解具有細微差別的信息,回答與復雜主題相關的問題。這就讓它尤其擅長解釋數學和物理等復雜科目中的推理,例如識別手寫的文字和公式等。
高級編碼能力:第一代 Gemini 可以理解、解釋和生成世界上最流行的編程語言(如 Python、Java、C++ 和 Go)的高質量代碼。
它能夠跨語言工作并對復雜信息進行推理,這些能力使其成為世界領先的編碼基礎模型之一。
這樣一個功能強大的大模型是如何訓練出來的?據谷歌公布,其使用了自行設計研發的TPUs v4 和 v5e。
所謂的TPU就是張量處理單元(Tensor Processing Units),這些定制設計的 AI 加速器一直是 Google 服務數十億用戶的 AI 賦能產品的核心,如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android。它們還使得世界各地的公司能夠經濟高效地訓練大規模的 AI 模型。
與此同時,谷歌還發布了迄今為止功能最強大、效率最高且可擴展性最強的 TPU 系統 Cloud TPU v5p,旨在為訓練前沿 AI 模型提供支持。
新一代 TPU 將加速 Gemini 的開發,幫助開發者和企業客戶更快地訓練大規模生成式 AI 模型,從而更快推出新產品和新功能。
據谷歌方面公布,Gemini 1.0 將在多種產品和平臺上推出:
即日起,Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、規劃和理解等。這是 Bard 自推出以來最大的升級。
它將在 170 多個國家和地區提供英語服務,并且谷歌計劃在未來幾個月內擴展不同的模態,并支持新的語言和地區。
谷歌還在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭載 Gemini Nano 的智能手機,它可以支持錄音應用中的“總結”等新功能,并在 Gboard 中推出“智能回復”功能,從 WhatsApp 開始,2024 年還將推出更多信息應用。
未來幾個月,Gemini 將應用于谷歌更多的產品和服務,如 Search、Ads、Chrome 和 Duet AI。
谷歌已經開始在 Search 中試驗 Gemini,它能夠為用戶提供更快的搜索生成體驗(SGE),用戶在美國的英語搜索延遲降低了 40%,同時在質量方面也有所提高。
2024年年初,谷歌還將推出內置 Gemini Ultra 的 Bard Advanced。