Google Genie 3:賦予 Project Genie 生命力的世界模型

  • Genie 3 是 Google DeepMind 的世界模型,它為 Project Genie 提供支持,Project Genie 是一個利用人工智慧創建互動式環境的原型。
  • Project Genie 可以根據文字和圖像即時產生可導航的世界,而無需了解程式設計或設計。
  • 每次體驗時長限制為 60 秒,而且場景並非完全逼真,至少在這個實驗階段是如此。
  • 目前,該功能僅對美國地區的 Google AI Ultra 訂閱用戶開放,未來計劃擴展到其他地區。

Google 創 3

谷歌已經開始實際展示其新世代產品的功能。 世界模型 精靈3透過 Project Genie,該公司允許選定的用戶根據自然語言描述和一些參考圖像創建和探索 AI 生成的互動式環境。

此舉是GoogleDeepMind致力於開發能夠…的系統的一部分。 模擬複雜的現實世界動態除了像西洋棋或圍棋這類主導封閉遊戲的傳統智能體之外,該計畫旨在打造一個未來,讓設計虛擬世界就像寫下腦海中的想法一樣簡單。雖然目前只有美國的付費用戶才能訪問該項目,但該項目設想的未來是,設計虛擬世界可以像寫下你的想法一樣輕鬆。

Genie 3:實驗背後的世界模型

Project Genie 的核心是 Genie 3,一款通用型機型 由谷歌DeepMind開發。與其他較為靜態的系統不同,它的功能不僅是繪製美麗的風景,還能預測當使用者移動、互動或改變環境中的元素時,環境將如何變化。

這種建築類型稱為 世界模型Genie 3 是一款人工智慧系統,能夠預測場景的演變以及環境中各種行為的影響。它逐幀即時產生你所行進的路徑,保持空間和視覺上的連貫性,超越了簡單的動畫或在靜止的 3D 場景中行走的效果。

為了實現這一點,該模型使用 自回歸生成這項技術使人工智慧能夠逐步建立世界,並記住它已經創建的內容。如果角色轉身或原路返回,人工智慧會「記住」之前的情況並進行一致的重建——這是模擬大型、逼真空間的關鍵要素,無論是城市環境、歷史景觀還是完全虛構的世界。

Project Genie 的工作原理:從文字到可玩世界

Project Genie 自稱是 可透過瀏覽器存取的應用程式與其他基於人工智慧的Google服務類似,無需安裝任何軟體或具備高級技術知識:互動方式基本上簡化為描述你想實現的目標,然後讓系統完成剩下的工作。

這個過程始於谷歌稱之為「階段」的階段。 “勾勒世界”使用者回答一些簡單的問題,例如“你的世界是什麼樣的?”,並提供有關世界設定(景觀、天氣、畫面風格、氛圍)以及他們偏好的探索方式(步行、飛行、駕車、騎馬或其他交通工具)的詳細資訊。他們也會選擇自己偏好的視角,第一人稱或第三人稱。

Google 創 3

接下來,需要定義該角色: 它可以是人、動物、物體或其他實體。 更抽像一些。有了這些訊息,Google的另一款產品 Nano Banana Pro 就派上了用場,它可以產生靜態預覽圖像。這種初始快照的作用是在使用者開始互動式探索之前,檢視現實世界是否符合使用者的預期。

如果結果不夠令人信服,則有可能 調整提示,更改場景元素使用者可以修改虛擬形象的外觀或調整視覺風格。他們可以上傳自己的圖片,使用其他人工智慧產生的素材,或從真實照片開始,系統會將所有這些數據結合起來,優化環境,最終形成可導航的體驗。

即時探索:世界會對你的動作做出反應

一旦世界設定完成且預覽被接受,Project Genie 就會切換到互動模式。這時, Genie 3 釋放其模擬能力當玩家在場景中移動時,模型會即時產生玩家面前的景象,同時考慮到已經創建的內容和環境的近似物理規則。

使用者使用標準的PC遊戲控制方式進行移動,例如使用W、A、S和D鍵進行移動,並且可以 調整相機 改變觀看角度。該體驗以最高 720p 解析度運行,交互速度約為每秒 20-24 幀,足以在實驗階段提供相當流暢的體驗。

谷歌給出的範例包括(例如): 從衝浪板尖端看到的是一片巨浪滔天的海洋。或者,也可以設定在擁有可變形積雪的高山環境中,玩家扮演一名可以全方位移動的登山者。在這兩種情況下,樂趣不僅在於初始的地形,更在於環境如何對角色的動作、方向改變或跳躍做出反應。

混音、分享和嘗試其他世界

Project Genie並非每次都從零開始。它最顯著的特徵之一是它能夠… “重新組合現有世界”使用者可以探索先前創建的場景(無論是自己創建的、其他人創建的,還是從精選圖庫中選擇的),並以此為基礎生成新版本。

此混音選項允許 將新指令應用於已生成的世界這可以透過改變遊戲風格、添加元素、改變遊戲探索方式或徹底修改角色類型來實現。此外,遊戲還提供名為「隨機生成器」的隨機生成模式,為尋求靈感或想要嘗試新玩法的玩家提供具有不可預測特性的環境。

會話結束後,系統會提供以下選項: 下載巡迴視頻這是一種在社交網路、視訊平台或專業環境中(例如動畫工作室、關卡設計或研究實驗室等)分享作品的簡單方法,方便他們記錄測試結果。

技術限制及專案現狀

儘管潛力巨大,但谷歌堅稱,Project Genie目前仍處於起步階段。 早期研究原型這一點在實驗室本身的部落格和使用須知中詳細列出的幾項限制中顯而易見。

最清晰的那個是 會話時間限制每個世界最多只能探索 60 秒,這是 Genie 3 目前能夠穩定處理的視覺記憶體極限。這限制了遊戲體驗的時長,目前這些體驗更像是微型冒險或短片,而不是完整的電子遊戲。

此外,谷歌還警告說, 這些場景並非完全寫實。 它們也並非總是完全按照使用者的指示執行。物理規律也可能存在近似值:某些行為、碰撞或運動可能並不總是符合現實世界的規律,這對於一個仍在開發中的系統來說是可以預期的。

另一點被強調的是角色控制, 它們可能存在一定的延遲或精度不足的問題。 對使用者指令的回應速度尚可。雖然幀率尚可接受,但操控上的輕微延遲還是比較明顯的,尤其對於習慣了畫面精美的商業電子遊戲的玩家來說更是如此。

最後,一些 Genie 3 的進階功能 先前演示中公佈的一些功能尚未在此版本中加入。其中包括可在探索過程中觸發並改變世界的事件,這項功能有望帶來更豐富的遊戲體驗,但目前仍停留在開發計畫中。

限制存取和地理擴張計劃

在第一階段,對Project Genie的存取權限是 僅限年滿 18 歲且訂閱了 Google AI Ultra 的用戶。 在美國,這項訂閱服務每月收費高昂,這清楚地表明,該實驗最初的目標是一小部分具有相當專業或高度熱情的用戶群。

谷歌已表明其意圖 擴大服務範圍至其他地區 一旦系統更加完善並收集到足夠的實際應用數據,如果原型開發進展順利,預計最終將擴展到其他主要市場,包括歐盟及其成員國西班牙。雖然目前尚未公佈具體日期或國家/地區,但預計如果原型開發進展順利,最終將涵蓋其他主要市場,包括歐盟及其成員國西班牙。

無論如何,這種擴張不僅取決於技術問題,還取決於… 監管和資料保護要求 歐洲的規定尤其嚴格。谷歌方面則堅持表示,將循序漸進地推進,並毫不猶豫地關閉與自身目標不符的項目,這一點此前已在其他公司服務中得到體現。

通用人工智慧和數位創作實驗室

除了對電子遊戲或娛樂的直接影響之外,Genie 3 和 Project Genie 也符合 Google DeepMind 向以下方向發展的策略: 更通用的人工智慧系統世界模型對於訓練需要理解複雜背景、預測後果並在不斷變化的環境中保持一致行動的智能體來說尤其有價值。

潛在應用範圍從 機器人技術和物理場景模擬 這涵蓋了從動畫建模和歷史場景重建到電影、電視和互動內容中虛構世界的探索等方方面面。快速迭代人工智慧生成的環境能夠降低時間和成本,這對於小型工作室和大型歐洲製作公司來說都極具吸引力。

同時,向外部用戶開放此類原型也具有以下功能: 大型試驗平台參與者的互動、錯誤和想法將有助於調整模型,識別以前可能未曾考慮過的用例,並評估與這些日益逼真的模擬相關的技術和倫理風險。

借助 Genie 3 和 Project Genie,Google正在探索一個虛擬世界創建變得更加容易的領域,儘管在視覺品質、控制和體驗持續時間方面仍然存在明顯的限制;如果這項實驗成熟並克服了訪問限制階段,它也可能成為西班牙和歐洲其他地區對新型交互設計和人工智能模擬感興趣的用戶和公司的重要工具。

Google 創 3
相關文章:
Google Genie 3:DeepMind 的 AI,可創建互動式虛擬世界

在 Google 新聞上關注我們