谷歌深夜炸場發(fā)布Gemini 2.0，2025屬于智能體之年？

2024-12-12 07:59:00 第一財經(jīng)

　　谷歌深夜炸場發(fā)布Gemini 2.0，2025屬于智能體之年？

　　作者：劉曉潔

　　AI大廠的競爭日趨白熱化，一邊OpenAI正如火如荼進行著為期12天的產(chǎn)品發(fā)布活動，另一邊谷歌也在頻頻放大招。

　　12 月 11 日晚，剛剛發(fā)布量子芯片的谷歌，又投下一枚重磅炸彈，正式發(fā)布其最新版大模型Gemini 2.0系列，谷歌表示這是他們迄今為止最強大的人工智能模型，“專為智能體時代設計”，并同時介紹了多個智能體應用(AI Agent)。

　　如果說去年底發(fā)布的 Gemini 1.0 是整合和理解信息，那么 Gemini 2.0 是能夠讓信息更加有用。谷歌在博客中表示，基于此前多模態(tài)方面的進展，Gemini 2.0能夠構(gòu)建新的AI智能體，從而離通用助手的愿景更進一步。

　　目前谷歌完全對外開放的新模型是Gemini 2.0 Flash體驗版，這是谷歌的主力模型，具有低延遲特性。與此前的1.5 Flash版本相比，Gemini 2.0 Flash 在同樣快速的響應時間下性能進一步增強。谷歌提到，2.0 Flash 在關鍵基準測試中甚至超越了此前的旗艦模型 1.5 Pro，其速度是 1.5 Pro 的兩倍。

　　同時2.0Flash 還具有新功能，除了能夠支持圖片、視頻和音頻等多模態(tài)輸入，2.0 Flash可以支持多模態(tài)輸出，例如可以直接生成圖像與文本混合的內(nèi)容，以及原生生成可控的多語言文本轉(zhuǎn)語音(TTS)音頻。它還可以原生調(diào)用 Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。

　　作為提供給開發(fā)者的體驗版模型，Gemini 2.0 Flash 現(xiàn)在可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 獲取，所有開發(fā)者均可使用多模態(tài)輸入和文本輸出。該產(chǎn)品將于 1 月全面上市，谷歌稱屆時將推出更多型號。

　　對于Gemini 2.0模型，谷歌表示會先將開放給開發(fā)者以及受信任的測試人員，并將其整合到產(chǎn)品中。Gemini 2.0基于谷歌定制的硬件第六代 TPU Trillium 構(gòu)建而成。谷歌表示，TPU 為 Gemini 2.0 的訓練和推理提供 100% 算力支持。

　　模型之外，谷歌這次的重頭戲是智能體。在發(fā)布產(chǎn)品的同時，谷歌CEO桑達爾·皮查伊(Sundar Pichai)在X上著重提到了智能體Project Astra，認為其“展示了通用 AI 助手的曙光”。

　　皮查伊表示，“2025 年將是令人興奮的一年。”帖子下則有評論表示，2025 年會是屬于智能體的一年。

　　Project Astra 是谷歌最初在5月的I/O大會上首次對外發(fā)布的AI助手，彼時主要是對標OpenAI的GPT-4o，其主要功能包括實時語音和視覺處理，能夠通過手機或谷歌眼鏡進行跨文本、音頻、視頻的多模態(tài)實時推理。谷歌在此次的博客中將其稱為“使用多模態(tài)理解現(xiàn)實世界的智能體”。

　　對于此次正式發(fā)布的Project Astra ，谷歌表示，它能夠流暢地在多種語言和混合語言之間進行對話，并且能夠理解不同口音和生僻單詞。此外，借助 Gemini 2.0，Project Astra 可以使用 Google Search、Google Lens 和 Google Maps，從而在日常生活中發(fā)揮助手的作用。

　　谷歌增強了 Project Astra 的記憶能力，這一助手目前可以記住長達 10 分鐘的會話內(nèi)容，并且可以回憶起過去與它進行的更多對話，能提供個性化服務。

　　在此前5月I/O大會上的演示中，在詢問Project Astra時，其語音回復還有一定的延遲，谷歌這次改進了這一點，博客提及，借助新的流式處理技術(shù)和原生音頻理解能力，該智能體能夠以接近于人類對話的延遲來理解語言。

　　“AI智能體在現(xiàn)實中的應用是一個令人振奮且充滿可能性的研究領域�！惫雀璺Q，團隊正在探索這個全新的領域，并開發(fā)出了一系列原型，幫助人們完成任務。除了Project Astra的升級版，這次谷歌發(fā)布的智能體還包括：完成復雜任務的智能體 Project Mariner，能夠幫助開發(fā)者的編碼智能體Jules，以及游戲和其他領域的智能體。

　　Project Mariner是使用Gemini 2.0 構(gòu)建的早期研究原型，可以從瀏覽器開始探索人機交互，它能夠理解和推理瀏覽器頁面中的信息，包括像素和文本、代碼、圖像和表單等網(wǎng)頁元素，然后通過Chrome 擴展程序使用這些信息為用戶完成任務。

　　在 WebVoyager 基準測試中，Project Mariner 作為單個智能體設置實現(xiàn)了 83.5% 的工作效率，達到了先進的水平。但谷歌提到， Project Mariner目前的運行并非總是準確，且完成任務的速度較慢，仍處于早期階段。

　　谷歌還在博客最后介紹了游戲和其他領域的智能體。就在上周，谷歌剛剛推出了世界基礎模型 Genie 2，這是一個可以從單個圖像創(chuàng)建無限3D 世界的 AI 模型�；诖耍雀枋褂� Gemini 2.0 構(gòu)建了智能體，可以幫助用戶在電子游戲中做出更好的決策。谷歌稱，這些游戲智能體可以根據(jù)屏幕上的實時畫面，分析游戲情況，并為用戶提供下一步的行動建議。

　　除了探索虛擬世界的智能體能力外，谷歌還將 Gemini 2.0 的空間推理能力應用于機器人領域，嘗試讓智能體在現(xiàn)實世界中提供幫助。這項研究仍處于初期階段，但谷歌認為智能體在現(xiàn)實環(huán)境中的應用前景非常廣闊。

　　值得一提的是，臨近2024年底，AI智能體頻頻被行業(yè)人士提及。所謂智能體，簡單來說是能夠感知環(huán)境，具有獨立思考和行動能力的AI程序。傳統(tǒng)AI通常是指令驅(qū)動的，需要人類用戶輸入指令才會執(zhí)行相應的任務，AI智能體則有獨立解決任務的能力。

　　近日天風證券發(fā)布研究報告稱，海外大廠積極布局智能體構(gòu)建應用，AI智能體正在快速發(fā)展，智能體在C端硬件落地正進入臨界點。

　　10月21日微軟連發(fā)10個AI智能體，面向銷售、運營等場景，11月19日微軟又宣布Copilot Studio平臺已支持用戶構(gòu)建自主智能體，同時發(fā)布5款預構(gòu)建的智能體。12月，亞馬遜公布了一系列布局AI大模型的進展。

　　在國內(nèi)，以智譜為代表的廠商也開始重點發(fā)力AI智能體。10月25日，智譜發(fā)布AutoGLM智能體，可通過讀取語音指令理解用戶意圖，并模擬人類行為，自動完成點外賣、訂機票和酒店等操作。11月29日，智譜推出AutoGLM智能體升級版，支持自主執(zhí)行超過50步的長步驟任務，并且能夠在執(zhí)行任務時靈活切換不同的APP。

　　除智譜以外，字節(jié)、百度、騰訊、阿里等科技大廠也開始布局智能體，包括字節(jié)的Coze Agent平臺、百度千帆AgentBuilder智能體開發(fā)工具等。

　　在此前的采訪中，瑞銀證券中國科技軟件分析師張維璇預測，“明年是Agent(智能體)的大年�！彼硎�，最近也看到美國領先的軟件廠商發(fā)布了AI 智能體的產(chǎn)品，通過智能體將企業(yè)的工作流自動化，在前中后臺的很多應用都能看到對客戶的效率和用戶體驗的提高，并且這些軟件公司也獲得了提價。

　　“隨著越來越多的大廠布局AI Agent產(chǎn)品和生態(tài)，預計2025年將會成為AI Agent商用爆發(fā)的年度�！敝行沤ㄍ蹲C券在月初表示。

來源：第一財經(jīng)

編輯：徐世明

廣告等商務合作，請點擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用。

關注中新經(jīng)緯微信公眾號(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財經(jīng)資訊。

今日推薦