作者|冬梅
就在 OpenAI“12 天連續(xù)轟炸”的第五天,谷歌終于坐不住了。
剛剛,谷歌正式發(fā)布了 Gemini 2.0 系列人工智能模型的首個版本,該模型名為 Gemini 2.0 Flash,提供聊天版本供全球用戶使用,同時還有一個實驗版的模型可供開發(fā)人員免費使用,該版本具有文本轉(zhuǎn)語音和圖像生成功能。
據(jù)谷歌稱,這是Agent 時代迄今為止為***強大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快兩倍,并且比更大的“專業(yè)”版 Gemini 1.5 更加強大。此外,該版本帶來了增強的性能、更多的多模態(tài)性和新的原生工具。
相比上一代模型,Gemini 2.0 增加了什么?
谷歌首席執(zhí)行官 Sundar Pichai 在一份聲明中表示:“如果 Gemini 1.0 致力于組織和理解信息,那么 Gemini 2.0 則致力于讓信息變得更加有用。”
谷歌***新的大語言模型在大多數(shù)用戶請求領域都比其前代產(chǎn)品表現(xiàn)更好,例如代碼生成和根據(jù)用戶請求提供事實正確響應的能力。
在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 團隊撰寫的博文中,詳細介紹了 Gemini 2.0 版本的具體特性。
據(jù)他們稱,Gemini 2.0 Flash 以 1.5 Flash 的成功為基礎,是谷歌目前***受開發(fā)者歡迎的版本,在同樣快速的響應時間下具有增強的性能。值得注意的是,2.0 Flash 在關鍵基準測試中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的兩倍。2.0 Flash 還具有新功能。除了支持圖像、視頻和音頻等多模式輸入外,2.0 Flash 現(xiàn)在還支持多模式輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉(zhuǎn)語音 (TTS) 多語言音頻。它還可以原生調(diào)用 Google 搜索、代碼執(zhí)行以及第三方用戶定義函數(shù)等工具。
過去一個月,Gemini 團隊一直在分享 Gemini 2.0 的早期實驗版本,并得到了開發(fā)人員的積極反饋。
Gemini 2.0 Flash 現(xiàn)已作為實驗模型通過 Google AI Studio 和 Vertex AI 中的 Gemini API 向開發(fā)者提供,所有開發(fā)者均可使用多模式輸入和文本輸出,早期合作伙伴可使用文本轉(zhuǎn)語音和原生圖像生成功能。
1 月份將***上市,同時將推出更多模型尺寸。為了幫助開發(fā)人員構(gòu)建動態(tài)和交互式應用程序,谷歌還發(fā)布了新的 Multimodal Live API,它具有實時音頻、視頻流輸入以及使用多個組合工具的能力。
要訪問實驗版本 Flash 2.0 的聊天優(yōu)化版本,Gemini 用戶可以在桌面和移動網(wǎng)絡上的模型下拉菜單中選擇它。該公司表示,它將很快在 Gemini 移動應用程序上提供。
Gemini Flash 2.0 的多模版本將通過 Google 的 AI Studio 和 Vertex AI 開發(fā)者平臺提供。
該公司還表示,計劃在 2025 年初將 Gemini 2.0 擴展到更多谷歌產(chǎn)品。
推出 Deep Search 新功能
谷歌此次發(fā)布的還不僅僅是大模型。谷歌宣布將推出一項名為 Deep Research 的新功能,它使用高級推理和長上下文功能充當研究助手,探索復雜主題并代表用戶編寫報告。它今日起已經(jīng) Gemini Advanced 中可用。
據(jù)谷歌方面稱,Search 無疑是受到人工智能影響***深遠、變革***顯著的產(chǎn)品。如今,AI Overviews 已觸達 10 億用戶,該功能使用戶能夠提出全新的問題類型,迅速成為 Search 有史以來***受歡迎的功能之一。接下來,谷歌會將 Gemini 2.0 的高級推理能力融入 AI Overviews,以攻克更復雜的主題和多步驟問題,包括高等數(shù)學方程、多模態(tài)查詢和編碼。同時,谷歌還計劃明年將 AI Overviews 功能面向更多國家開放,適配更多語言。
2.0 基于谷歌定制的硬件第六代 TPU Trillium 構(gòu)建而成。TPU 為 Gemini 2.0 的訓練和推理提供 *** 算力支持,今天 Trillium 也***向用戶開放,以便他們能夠基于此進行開發(fā)。
通過 Gemini 2.0 解鎖 Agent 體驗
Gemini 2.0 Flash 已經(jīng)進行了原生用戶界面操作能力的改進,其他改進還包括多模式推理、長上下文理解、復雜指令跟蹤和規(guī)劃、組合函數(shù)調(diào)用、原生工具使用和改進的延遲等。
自大模型誕生以來,AI Agent 的實際應用是一個非;鸨难芯款I域。谷歌正在通過一系列原型探索這一新領域,這些原型可以幫助人們完成任務并完成工作。其中包括對 Project Astra 的更新,這是谷歌的研究原型,旨在探索通用人工智能助手的未來功能;新 Project Mariner,它從瀏覽器開始探索人機交互的未來;以及 Jules,一個可以幫助開發(fā)人員的 AI 代碼 Agent。
Gemini API 集團產(chǎn)品經(jīng)理 Shrestha Basu Mallick 和谷歌實驗室產(chǎn)品總監(jiān) Kathy Korevec 表示:“從今天開始(對于受信任的測試人員),你可以將 Python 和 JavaScript 編碼任務轉(zhuǎn)移給 Jules。Jules 可以異步工作并與你的 GitHub 工作流程集成,處理錯誤修復和其他耗時任務,而你則專注于你真正想要構(gòu)建的內(nèi)容。
谷歌也表示,即便技術(shù)持續(xù)迭代,但 Gemini 系列模型仍處于開發(fā)的早期階段,他們很高興看到那些值得信賴的測試人員如何使用這些新功能以及他們可以從中學到什么經(jīng)驗,這樣就可以在未來的產(chǎn)品中更廣泛地使用它們。
硬剛一眾 AI 獨角獸,谷歌更勝一籌?
Gemini 2.0 是谷歌在科技行業(yè)日益激烈的人工智能競賽中的***。谷歌正在與科技巨頭微軟、Meta 以及一眾 AI 明星獨角獸如 OpenAI、Perplexity 和 Anthropic 等初創(chuàng)公司展開激烈戰(zhàn)爭。
谷歌這一波出手在技術(shù)社區(qū)引發(fā)了熱議,一名 Reddit 用戶對 Gemini 2.0 的發(fā)布表示震驚,他評論道:
“我不知道我現(xiàn)在的感受是什么。興奮、擔憂、不安、好奇以及對 AI 的***敬畏交織在一起。超現(xiàn)實的是,我們正在經(jīng)歷這種改進,并且每次發(fā)布的迭代都給我們留下了深刻的印象。我甚至都不敢想象 10 年后的情況。看看 2004 年到 2014 年的科技各個方面都取得了巨大進展,但與這兩年 AI 勢頭相比還有很大差距。”
有用戶調(diào)侃,谷歌甚至都等不及 OpenAI 把“瘋狂發(fā)布周”過完再來炸場,結(jié)合前兩日 Sora 潦草發(fā)布,有不少網(wǎng)友直接站隊谷歌:
“谷歌的 Gemini ***是是 GPT-5 級別的威脅,我從未見過一家公司發(fā)布如此強大的模型讓開發(fā)者免費試用。”
隨著新 Flash 模型的發(fā)布,這場 AI 軍備競賽已經(jīng)進入白熱化階段。據(jù)谷歌公司稱,Agent 模型“可以更好地了解你周圍的世界,提前思考多個步驟,并在你的監(jiān)督下代表你采取行動。”
上周,在《紐約時報》 DealBook 峰會上與安德魯·羅斯·索爾金 (Andrew Ross Sorkin) 的對話中,谷歌 CEO 皮查伊對微軟的人工智能進步提出了質(zhì)疑,表示他“很樂意在任何時候”對兩家公司的模型進行并排比較。
安德魯·羅斯·索爾金問皮查伊:“相對于其他參與者,你認為自己處于什么位置?”
皮查伊表示他很想進行并排比較,隨后他補充道:“他們使用了別人的模型。”
“你這是在向我發(fā)起挑戰(zhàn)。”索金回答道。
皮查伊笑著搖了搖頭,補充道:“我只是——我非常尊重他們和他們的團隊。”
微軟當家人納德拉對于谷歌技術(shù)實力也給予了很高的肯定。
早在今年 3 月份,微軟 CEO 納德拉在挪威銀行投資管理播客上表示:“谷歌本應就是大型科技公司 AI 競賽的默認贏家。谷歌是一家非常有能力的公司,他們既有人才,又有計算能力。他們是這個領域的垂直整合參與者。他們擁有從數(shù)據(jù)到芯片到模型到產(chǎn)品和分銷的一切。”