銀河通用公司近期震撼發(fā)布了一款名為TrackVLA的全球首創(chuàng)產(chǎn)品級(jí)端到端具身FSD大模型。這款模型集成了純視覺環(huán)境感知、語言指令驅(qū)動(dòng)、自主推理及零樣本泛化能力,標(biāo)志著人工智能領(lǐng)域的一大突破。
TrackVLA是一款專為機(jī)器人導(dǎo)航設(shè)計(jì)的產(chǎn)品級(jí)大模型,它結(jié)合了“視覺-語言-動(dòng)作”(VLA)訓(xùn)練框架,通過仿真合成動(dòng)作數(shù)據(jù)進(jìn)行訓(xùn)練。這一創(chuàng)新使機(jī)器人能夠形成“聽 → 看 → 懂 → 走”的閉環(huán)運(yùn)動(dòng)能力,無需預(yù)先建圖或依賴遙控操作,僅需語言指令即可驅(qū)動(dòng)。
這款大模型的八大核心能力令人矚目:
首先,TrackVLA具備出色的自然語言理解和目標(biāo)識(shí)別能力。用戶只需簡單發(fā)出指令,如“跟著媽媽”,機(jī)器人便能迅速鎖定目標(biāo),并根據(jù)用戶的新指令,如“換成跟孩子”,立即切換跟隨對(duì)象。這種能力不僅限于人類,甚至還能跟蹤寵物。
其次,在人流密集的場(chǎng)景中,TrackVLA展現(xiàn)出卓越的空間理解和視覺記憶機(jī)制。它能準(zhǔn)確識(shí)別并持續(xù)跟隨目標(biāo),即便在多變環(huán)境和多個(gè)相似穿著的人中,也能避免“認(rèn)錯(cuò)人”。
第三,當(dāng)目標(biāo)走出視野范圍時(shí),TrackVLA不會(huì)停滯不前,而是利用實(shí)時(shí)空間智能和大模型推理能力,分析目標(biāo)運(yùn)動(dòng)軌跡,重新規(guī)劃路徑找回目標(biāo)。
第四,TrackVLA不依賴建圖,僅憑純視覺輸入理解環(huán)境。這意味著它可以在未經(jīng)訓(xùn)練的陌生環(huán)境中,如商場(chǎng)、電梯、游樂區(qū)等,實(shí)現(xiàn)長時(shí)穩(wěn)定自主跟隨。
第五,在復(fù)雜場(chǎng)景中,如兒童游樂區(qū)和狹窄通道,TrackVLA能實(shí)時(shí)識(shí)別障礙物,分析可通行區(qū)域,并根據(jù)自身構(gòu)型自主推理出合理路線,靈活避障。
第六,TrackVLA展現(xiàn)出極強(qiáng)的環(huán)境適應(yīng)性,無論室外陽光還是室內(nèi)昏暗,從電梯鏡面反射到超市貨架夾縫,都無需專門調(diào)參或切換模式。
第七,用戶可通過App實(shí)時(shí)查看機(jī)器人視角,掌握家人動(dòng)態(tài),系統(tǒng)還能主動(dòng)提醒風(fēng)險(xiǎn)行為,如小朋友奔跑或老人跌倒,提供“移動(dòng)守護(hù)”。
最后,TrackVLA的技能涌現(xiàn)能力令人驚嘆。它不僅能穩(wěn)定跟隨人類,還能泛化至任意移動(dòng)目標(biāo)。例如,在視頻中,機(jī)器狗成功跟隨一只偶遇的動(dòng)物狗狗,盡管目標(biāo)形態(tài)、運(yùn)動(dòng)方式和遮擋情況都非常不確定,但TrackVLA仍表現(xiàn)出穩(wěn)定的跟隨能力。
目前,TrackVLA已搭載于宇樹機(jī)器狗,化身“二寶保鏢”,實(shí)現(xiàn)兒童看護(hù),并在未訓(xùn)練過的真實(shí)場(chǎng)景中完成了嚴(yán)格的長程驗(yàn)證。在超市、電梯、服裝店等環(huán)境中,它成功穿梭于人流和貨架之間,準(zhǔn)確跟隨母子,根據(jù)語音指令切換目標(biāo),并在兒童玩耍時(shí)發(fā)出提醒,展現(xiàn)出卓越的性能。