IT之家 8 月 15 日消息,智元機(jī)器人昨天通過公眾號宣布,推出行業(yè)首個面向真實世界機(jī)器人操控的統(tǒng)一世界模型平臺 --- Genie Envisioner(GE)。
根據(jù)官方介紹,不同于傳統(tǒng)“數(shù)據(jù) — 訓(xùn)練 — 評估”割裂的流水線模式,GE 將未來幀預(yù)測、策略學(xué)習(xí)與仿真評估首次整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu),使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行?;?3000 小時真機(jī)數(shù)據(jù),GE-Act 不僅在跨平臺泛化和長時序任務(wù)執(zhí)行上顯著超越現(xiàn)有 SOTA,更為具身智能打開了從視覺理解到動作執(zhí)行的全新技術(shù)路徑。
IT之家附開源有關(guān)鏈接:
Project page:https://genie-envisioner.github.io/
Arxiv:https://arxiv.org/abs/2508.05635
Github:https://github.com/AgibotTech/Genie-Envisioner
GE 平臺通過構(gòu)建統(tǒng)一的視頻生成世界模型,將這些分散的環(huán)節(jié)集成到一個閉環(huán)系統(tǒng)中?;诩s 3000 小時的真實機(jī)器人操控視頻數(shù)據(jù),GE 建立了從語言指令到視覺空間的直接映射,保留了機(jī)器人與環(huán)境交互的完整時空信息。
基于強(qiáng)大的視覺空間預(yù)訓(xùn)練,GE-Act 僅需極少量數(shù)據(jù)即可實現(xiàn)跨平臺遷移。在 Agilex Cobot Magic 和 Dual Franka 等全新機(jī)器人平臺上,GE-Act 僅使用 1 小時(約 250 個演示)的遙操作數(shù)據(jù)就實現(xiàn)了高質(zhì)量的任務(wù)執(zhí)行。
智元方面表示,團(tuán)隊將開源全部代碼、預(yù)訓(xùn)練模型和評測工具。GE 通過視覺中心的世界建模,為機(jī)器人學(xué)習(xí)開辟了新的技術(shù)路徑。GE 的發(fā)布,標(biāo)志著機(jī)器人從被動執(zhí)行向主動‘想象 — 驗證 — 行動’的轉(zhuǎn)變。未來,將擴(kuò)展更多傳感器模態(tài),支持全身移動與人機(jī)協(xié)作,持續(xù)推動智能制造與服務(wù)機(jī)器人的落地應(yīng)用。