清華、星動(dòng)紀(jì)元放大招,開源首個(gè)AIGC機(jī)器人大模型
5 月 7 日,星動(dòng)紀(jì)元宣布,已與清華大學(xué)叉院的 ISRLab 合作,開源首個(gè) AIGC 生成式機(jī)器人大模型 VPP(Video Prediction Policy)。
VPP 利用了大量互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行訓(xùn)練,直接學(xué)習(xí)人類動(dòng)作,減輕了對(duì)于高質(zhì)量機(jī)器人真機(jī)數(shù)據(jù)的依賴,且可在不同人形機(jī)器人本體之間自如切換,這有望大大加速人形機(jī)器人的商業(yè)化落地。
在今年的 ICML 2025 中,VPP 從超 12000 篇投稿里脫穎而出,入選占比不到 2.6% 的 Spotlight 論文。
當(dāng)下,AI 大模型領(lǐng)域有兩大 “巨頭” 流派 —— 基于自回歸的理解模型,比如大名鼎鼎的 GPT;和基于擴(kuò)散的生成模型,例如 Sora。
GPT 的思路演化到具身智能領(lǐng)域,就是以 PI(Physical Intelligence)為代表的 VLA 技術(shù),它從視覺語言理解模型(VLM)微調(diào)而來,擅長(zhǎng)抽象推理和語義理解。
而生成式技術(shù)與機(jī)器人的碰撞,就誕生了 VPP 這樣的生成式機(jī)器人大模型。
VPP 分成兩階段的學(xué)習(xí)框架,最終實(shí)現(xiàn)基于文本指令的視頻動(dòng)作生成。
第一階段利用視頻擴(kuò)散模型學(xué)習(xí)預(yù)測(cè)性視覺表征;第二階段通過 Video Former 和 DiT 擴(kuò)散策略進(jìn)行動(dòng)作學(xué)習(xí)。
以往機(jī)器人策略(例如 VLA 模型)往往只能根據(jù)當(dāng)前觀測(cè)進(jìn)行動(dòng)作學(xué)習(xí),機(jī)器人策略需要先理解指令和場(chǎng)景,再執(zhí)行。而 VPP 能夠提前預(yù)知未來的場(chǎng)景,讓機(jī)器人 “看著答案” 行動(dòng),大大增強(qiáng)泛化能力。并且,VPP 視頻預(yù)測(cè)結(jié)果與機(jī)器人實(shí)際物理執(zhí)行結(jié)果幾乎一致,能被視頻生成的,就能被機(jī)器人執(zhí)行。
過去訓(xùn)練機(jī)器人策略(例如 VLA 模型),得反復(fù)拍很多它干活的視頻,成本高又費(fèi)時(shí)間。VPP 就像個(gè) “超級(jí)學(xué)霸”,不用盯著機(jī)器人實(shí)操,直接看網(wǎng)上海量人類干活的視頻,比如掃地、炒菜,就能學(xué)會(huì)這些動(dòng)作,提前 “腦補(bǔ)” 接下來場(chǎng)景,比如端水杯前知道可能會(huì)灑,提前調(diào)整動(dòng)作。
高頻預(yù)測(cè)和執(zhí)行,反應(yīng)超快不 “卡殼”
以前 AIGC 生成畫面很慢,但往往花費(fèi)大量推理時(shí)間,就像電腦加載視頻要等好久。
星動(dòng)紀(jì)元研究團(tuán)隊(duì)發(fā)現(xiàn),不需要精確地預(yù)測(cè)未來的每個(gè)像素,通過有效提取視頻模型中間層的表征,單步去噪的預(yù)測(cè)就可以蘊(yùn)含大量未來信息。
VPP 發(fā)現(xiàn)不用把畫面每個(gè)細(xì)節(jié)都精準(zhǔn)預(yù)測(cè),抓住關(guān)鍵信息就行。這樣一來,它預(yù)測(cè)下一步動(dòng)作不到 0.15 秒,控制機(jī)器人的頻率比普通模型快好幾倍,干活一點(diǎn)不拖泥帶水。
跨本體學(xué)習(xí),技能 “共享” 超方便
不同機(jī)器人 “身材” “手臂” 不一樣,以前教它們技能很麻煩。
VPP 直接把機(jī)器人干活的視頻當(dāng)教材,連人類干活視頻也能學(xué),就像學(xué)做菜,看別人做一遍,自己就能上手。
在測(cè)試中,它完成任務(wù)的效率比老方法高 41.5%,在仿真測(cè)試接近滿分,真機(jī)測(cè)試成功率也有 67% 。
舉一反三,真實(shí)世界表現(xiàn) “全能”
在真實(shí)世界的測(cè)試中,VPP 模型展現(xiàn)出了驚人的多任務(wù)學(xué)習(xí)能力和泛化能力,學(xué)習(xí)成果十分驚艷。
在星動(dòng)紀(jì)元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺(tái),VPP 能使用一個(gè)網(wǎng)絡(luò)完成 100 多種精細(xì)操作,像疊衣服、擰瓶蓋;在雙臂機(jī)器人上,也能熟練搞定 50 多項(xiàng)復(fù)雜任務(wù),比如包餃子、擺餐具。
可解釋性與調(diào)試優(yōu)化,問題一眼看穿
VPP 的預(yù)測(cè)視覺表示在一定程度上是可解釋的,開發(fā)者在不通過 real - world 測(cè)試情況下,通過預(yù)測(cè)的視頻來提前發(fā)現(xiàn)失敗的場(chǎng)景和任務(wù),進(jìn)行針對(duì)性的調(diào)試和優(yōu)化。
如果機(jī)器人干活出錯(cuò),VPP 能通過預(yù)測(cè)的視頻提前發(fā)現(xiàn)問題,就像看彩排視頻找漏洞。而以前的模型,得讓機(jī)器人反復(fù)實(shí)操,才能找到問題,VPP 大大節(jié)省了調(diào)試時(shí)間。
如今 VPP 已全部開源,武功秘籍已經(jīng)免費(fèi)分享出來了。依托行業(yè)持續(xù)開源優(yōu)質(zhì)模型與技術(shù)的強(qiáng)勁動(dòng)力,機(jī)器人技術(shù)必將開啟全新篇章,具身 AGI 也將沿著這條創(chuàng)新之路闊步前行。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 AI視頻,攪動(dòng)1.5萬億市場(chǎng)
- 10 張勇等人退出阿里合伙人