我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
IT之家 8 月 6 日消息,谷歌 DeepMind 官方昨日(8 月 5 日)發(fā)布博文,宣布推出名為 Genie 3 的“世界模型”,該模型能夠讓 AI 系統(tǒng)與逼真的現(xiàn)實(shí)世界模擬互動(dòng),朝著通用人工智能(AGI)邁出重要一步。
據(jù)谷歌介紹,Genie 3 可以用于訓(xùn)練機(jī)器人和自動(dòng)駕駛車輛,讓它們?cè)谂c倉(cāng)庫(kù)等環(huán)境的真實(shí)再現(xiàn)中互動(dòng),IT之家附上演示視頻如下:
谷歌 DeepMind 人工智能部門的專家認(rèn)為,世界模型是實(shí)現(xiàn) AGI 的關(guān)鍵步驟。AGI 是一種假想的人工智能水平,在這一水平上,系統(tǒng)不僅僅是下棋或翻譯語(yǔ)言等單一任務(wù),而是能夠執(zhí)行大多數(shù)任務(wù),與人類相當(dāng),并可能取代某些工作崗位。DeepMind 表示,這些模型在開發(fā)自主執(zhí)行任務(wù)的 AI 代理或系統(tǒng)中將發(fā)揮重要作用。
相比較前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3 對(duì)直覺物理學(xué)的深刻理解),Genie 3 是第一個(gè)允許實(shí)時(shí)交互的世界模型,同時(shí)與 Genie 2 相比,其一致性和真實(shí)感也得到了提升。
其核心能力包括:
模擬世界的物理特性: Genie 3 對(duì)物理規(guī)律有深刻理解,能逼真地模擬水流、光影變化以及復(fù)雜的環(huán)境互動(dòng),例如直升機(jī)在懸崖瀑布邊小心翼翼地機(jī)動(dòng)
模擬自然世界:從冰川湖畔充滿生機(jī)的生態(tài)系統(tǒng),到幻想世界中可愛的毛茸茸生物在彩虹橋上跳躍,Genie 3 能將想象力轉(zhuǎn)化為可探索的現(xiàn)實(shí)
動(dòng)畫和小說(shuō)建模:可以發(fā)揮想象力,創(chuàng)造奇幻的場(chǎng)景和富有表現(xiàn)力的動(dòng)畫角色
探索不同地域與歷史場(chǎng)景:模型能超越地理和時(shí)間的限制,帶領(lǐng)用戶探索不同地點(diǎn)和歷史時(shí)代,無(wú)論是身穿翼裝飛越雪山,還是置身于歷史悠久的古城
突破實(shí)時(shí)性能的極限:實(shí)現(xiàn)高度的可控性和實(shí)時(shí)交互性,在每一幀的自回歸生成過(guò)程中,模型必須考慮先前生成的隨時(shí)間增長(zhǎng)的軌跡。例如,如果用戶在一分鐘后重新訪問(wèn)某個(gè)位置,則模型必須引用一分鐘前的相關(guān)信息。為了實(shí)現(xiàn)實(shí)時(shí)交互性,這種計(jì)算必須每秒進(jìn)行多次,以響應(yīng)新用戶輸入的到來(lái)
長(zhǎng)時(shí)程環(huán)境一致性:為了讓人工智能生成的世界身臨其境,它們必須在很長(zhǎng)一段時(shí)間內(nèi)保持物理上的一致性。然而,自動(dòng)回歸生成環(huán)境通常比生成整個(gè)視頻更難的技術(shù)問(wèn)題,因?yàn)椴粶?zhǔn)確之處往往會(huì)隨著時(shí)間的推移而累積,Genie 3 環(huán)境在幾分鐘內(nèi)基本保持一致,視覺記憶可以追溯到一分鐘前,Genie 3 生成的世界更加動(dòng)態(tài)和豐富,因?yàn)樗鼈兪歉鶕?jù)用戶的世界描述和作逐幀創(chuàng)建的
可提示的世界事件 (Promptable World Events):除了導(dǎo)航輸入之外,Genie 3 還支持一種更具表現(xiàn)力的基于文本的交互形式,稱之為可提示的世界事件??商崾镜氖澜缡录梢愿淖兩傻氖澜纾绺淖兲鞖鈼l件或引入新的物體和角色,從而增強(qiáng)導(dǎo)航控制的體驗(yàn),這種能力還增加了反事實(shí)或“假設(shè)”場(chǎng)景的廣度,代理可以使用這些場(chǎng)景從經(jīng)驗(yàn)中學(xué)習(xí)來(lái)處理意外情況
然而,谷歌表示 Genie 3 尚未準(zhǔn)備好全面公開上市,并未給出具體的發(fā)布日期,同時(shí)還指出該模型存在一些局限性。這一聲明是在人工智能市場(chǎng)競(jìng)爭(zhēng)日益激烈的背景下發(fā)布的。
谷歌表示,其世界模型還可以幫助人類體驗(yàn)各種模擬訓(xùn)練或探索,如滑雪或繞山湖漫步。DeepMind 表示,Genie 3 能夠根據(jù)文本提示立即創(chuàng)建場(chǎng)景,并且模擬環(huán)境可以快速更改,例如,通過(guò)文本提示在滑雪坡上引入一群鹿。
谷歌本周一向記者展示了 Genie 3 創(chuàng)建的滑雪和倉(cāng)庫(kù)場(chǎng)景,但尚未公開模型。據(jù)《衛(wèi)報(bào)》報(bào)道,這些模擬的質(zhì)量與谷歌最新的視頻創(chuàng)作模型 Veo 3 相當(dāng),但它們持續(xù)的時(shí)間是 Veo 3 的八秒。
盡管 AGI 被視為可能消除白領(lǐng)工作,因?yàn)樽灾飨到y(tǒng)能夠執(zhí)行從銷售代理到律師或會(huì)計(jì)師的各種角色,但谷歌認(rèn)為世界模型是開發(fā)機(jī)器人和自動(dòng)駕駛車輛的關(guān)鍵技術(shù)。例如,一個(gè)具有真實(shí)物理和人物的倉(cāng)庫(kù)再現(xiàn)可以幫助訓(xùn)練機(jī)器人,因?yàn)樗谟?xùn)練中從模擬中“學(xué)習(xí)”,幫助它實(shí)現(xiàn)目標(biāo)。
谷歌邁步通用人工智能,AI 世界模型 Genie 3 登場(chǎng) 09:48:02
彌補(bǔ)監(jiān)測(cè)空白:我國(guó)首個(gè)可無(wú)人機(jī)部署的雨量站啟用 09:46:56
特斯拉工程師力挺馬斯克290億美元薪酬方案:8年無(wú)薪仍每日上班 09:43:56
行業(yè)春至、創(chuàng)新崛起,這場(chǎng)大賽將全周期賦能科創(chuàng)企業(yè)成長(zhǎng) 09:41:19
意念操控iPad!全球首例蘋果設(shè)備原生腦機(jī)接口控制,免開顱植入 09:39:33
維基百科嚴(yán)打 AI 生成劣質(zhì)條目:一經(jīng)發(fā)現(xiàn)立馬刪除 09:30:01