久久久久久影院|深夜高潮喷水视频|久久五级视频|5566无码网址

機器人斷網(wǎng)也能干活!谷歌推出離線VLA模型,這些國內(nèi)公司有布局→
來源:證券時報網(wǎng)作者:周春媚2025-06-28 20:19

VLA模型,已經(jīng)成為具身智能當前最熱的技術趨勢。

近日,谷歌推出了自身最強大的VLA(Vision-Language-Action,視覺-語言-動作)模型Gemini Robotics On-Device。據(jù)介紹,這款機器人端側(cè)模型運行時無需依賴數(shù)據(jù)網(wǎng)絡,可以完全在機器人設備本地離線運行,并在多種測試場景中實現(xiàn)了強大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務。

具身智能領域的關鍵新范式,VLA讓機器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力。記者梳理發(fā)現(xiàn),今年以來,不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型,銀河通用、智元機器人、自變量機器人等國內(nèi)機器人公司也已在這一領域有所布局。

“機器人版安卓”,50次演示即可學會新動作

今年3月,谷歌DeepMind團隊首次推出了新一代專為機器人設計的AI模型Gemini Robotics,被視為“機器人版的安卓”。

這一模型基于Gemini 2.0打造,如同機器人的“大腦”,能夠讓機器人理解復雜環(huán)境、執(zhí)行精細任務。在谷歌DeepMind展示的演示視頻中,Gemini Robotics借助一臺雙臂機器人,能夠流暢地折紙、拉拉鏈、把皮帶安裝到齒輪上。

而最新推出的Gemini Robotics On-Device,則是專為在機器人設備本地運行而優(yōu)化的模型。業(yè)內(nèi)人士分析稱,具身智能的發(fā)展一直以來受限于對云計算資源的高度依賴,這使得機器人在網(wǎng)絡不穩(wěn)定或無網(wǎng)絡的環(huán)境中難以獨立作業(yè)。同時,模型體積龐大,在機器人有限的計算資源上也難以高效運行。

Gemini Robotics On-Device的發(fā)布,標志著具身智能從依賴云端算力向本地自主運行的重大轉(zhuǎn)變,為機器人產(chǎn)業(yè)的落地應用開辟了新的路徑,為機器人在更多場景中的應用提供可能。比如,機器人在無網(wǎng)絡的工廠精準裝配零件、在災區(qū)廢墟中自主救援,這些應用場景都離不開機器人端側(cè)模型的部署。

據(jù)介紹,Gemini Robotics On-Device具備三大特點:一是專為靈巧操作的快速實驗而設計;二能通過微調(diào)來適應新任務進一步提高性能;三是經(jīng)過優(yōu)化,可在本地運行并實現(xiàn)超低延遲推理。

此外,谷歌還推出Gemini Robotics SDK,幫助開發(fā)者評估Gemini Robotics在設備上的性能,包括在MuJoCo物理模擬器中進行測試。開發(fā)者只需50—100個演示即可完成模型評估,讓機器人快速學習新技能。

VLA成“必爭之地”,這些國內(nèi)機器人公司也布局了

如果過去十年,機器人領域的焦點先后經(jīng)歷了“看得見”的視覺感知、“聽得懂”的語言理解,那么在VLA模型出現(xiàn)之后,機器人開始走向“動得準”的第三階段。

當下,VLA模型已逐漸成為具身智能行業(yè)的共識,被視為連接感知、語言與行為的通用架構(gòu)。今年6月,在2025北京智源大會上,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman表示,VLA是通往通用智能的重要基石,能夠讓機器人從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學習并轉(zhuǎn)化為具體行動。

記者梳理發(fā)現(xiàn),今年以來,不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型,銀河通用、智元機器人、自變量機器人等國內(nèi)機器人公司也已在這一領域有所布局。

今年6月1日,銀河通用正式推出自主研發(fā)的產(chǎn)品級端到端導航大模型TrackVLA。這是一款具備純視覺環(huán)境感知、語言指令驅(qū)動、可自主推理、具備零樣本泛化能力的具身大模型。而在一周后的2025北京智源大會上,銀河通用又發(fā)布了全球首個面向零售場景的端到端VLA大模型GroceryVLA。

根據(jù)現(xiàn)場展示,在現(xiàn)場搭建的1比1還原真實商超場景中,當銀河通用創(chuàng)始人兼CTO王鶴向搭載了GroceryVLA的機器人Galbot發(fā)出“我又熱又餓,幫我拿點吃的”這一指令后,Galbot能夠自主精確地移動到準確位置,在貨架中為顧客選擇餅干和飲料等食物,然后有序地拿取并送到顧客手中,全程無遙控操作,并且無事先采集場景數(shù)據(jù)。

今年3月,智元機器人發(fā)布了首個通用具身基座模型智元啟元大模型(Genie Operator-1,簡稱GO-1),該模型采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu),由VLM(視覺語言模型)和MoE(混合專家)組成,實現(xiàn)了可以利用人類視頻學習,完成小樣本快速泛化。目前,GO-1大模型已成功部署到智元多款機器人本體之中。

此外,智元機器人還聯(lián)合香港大學推出UniVLA系統(tǒng)。據(jù)介紹,UniVLA是一個具備跨機器人本體、場景與任務泛化能力的通用策略學習系統(tǒng)。它通過構(gòu)建以任務為中心的隱式動作空間,利用語言描述與視頻示范進行策略學習,實現(xiàn)從“看視頻”、“聽指令”到“動手操作”的通用控制。

而作為國內(nèi)唯一一家從創(chuàng)業(yè)第一天就選擇了端到端統(tǒng)一大模型技術路線的公司,自變量機器人研發(fā)的WALL-A則是世界上最大規(guī)模的端到端統(tǒng)一具身大模型。這一模型突破了傳統(tǒng)分層架構(gòu)的噪聲傳遞問題,支持從原始傳感器信號到機器人動作的縱向統(tǒng)一和橫向任務統(tǒng)一,跨任務泛化能力出色。

今年5月,自變量機器人宣布完成數(shù)億元A輪融資,由美團戰(zhàn)投領投、美團龍珠跟投。公司表示,本輪融資將用于持續(xù)加速全自研端到端通用具身智能大模型與機器人本體的同步迭代,以及未來多個應用場景的智慧化方案合作和落地。成立起不到一年半時間內(nèi),自變量機器人已完成7輪融資,累計融資金額超10億元。據(jù)投資人介紹,公司所堅持的“大小腦統(tǒng)一的端到端大模型”路線,正是多家投資機構(gòu)青睞自變量機器人的核心原因。

校對:廖勝超

責任編輯: 高蕊琦
聲明:證券時報力求信息真實、準確,文章提及內(nèi)容僅供參考,不構(gòu)成實質(zhì)性投資建議,據(jù)此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換