久久人人综合视频性中国hdsxe,日本a∨在线看

機器人斷網(wǎng)也能干活！谷歌推出離線VLA模型，這些國內(nèi)公司有布局→

來源：證券時報網(wǎng)作者：周春媚2025-06-28 20:19

VLA模型，已經(jīng)成為具身智能當前最熱的技術趨勢。

近日，谷歌推出了自身最強大的VLA（Vision-Language-Action，視覺-語言-動作）模型Gemini Robotics On-Device。據(jù)介紹，這款機器人端側(cè)模型運行時無需依賴數(shù)據(jù)網(wǎng)絡，可以完全在機器人設備本地離線運行，并在多種測試場景中實現(xiàn)了強大的視覺、語義和行為泛化能力，能理解自然語言指令，并完成拉開拉鏈、折疊衣物等高靈巧度任務。

具身智能領域的關鍵新范式，VLA讓機器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力。記者梳理發(fā)現(xiàn)，今年以來，不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型，銀河通用、智元機器人、自變量機器人等國內(nèi)機器人公司也已在這一領域有所布局。

“機器人版安卓”，50次演示即可學會新動作

今年3月，谷歌DeepMind團隊首次推出了新一代專為機器人設計的AI模型Gemini Robotics，被視為“機器人版的安卓”。

這一模型基于Gemini 2.0打造，如同機器人的“大腦”，能夠讓機器人理解復雜環(huán)境、執(zhí)行精細任務。在谷歌DeepMind展示的演示視頻中，Gemini Robotics借助一臺雙臂機器人，能夠流暢地折紙、拉拉鏈、把皮帶安裝到齒輪上。

而最新推出的Gemini Robotics On-Device，則是專為在機器人設備本地運行而優(yōu)化的模型。業(yè)內(nèi)人士分析稱，具身智能的發(fā)展一直以來受限于對云計算資源的高度依賴，這使得機器人在網(wǎng)絡不穩(wěn)定或無網(wǎng)絡的環(huán)境中難以獨立作業(yè)。同時，模型體積龐大，在機器人有限的計算資源上也難以高效運行。

Gemini Robotics On-Device的發(fā)布，標志著具身智能從依賴云端算力向本地自主運行的重大轉(zhuǎn)變，為機器人產(chǎn)業(yè)的落地應用開辟了新的路徑，為機器人在更多場景中的應用提供可能。比如，機器人在無網(wǎng)絡的工廠精準裝配零件、在災區(qū)廢墟中自主救援，這些應用場景都離不開機器人端側(cè)模型的部署。

據(jù)介紹，Gemini Robotics On-Device具備三大特點：一是專為靈巧操作的快速實驗而設計；二能通過微調(diào)來適應新任務進一步提高性能；三是經(jīng)過優(yōu)化，可在本地運行并實現(xiàn)超低延遲推理。

此外，谷歌還推出Gemini Robotics SDK，幫助開發(fā)者評估Gemini Robotics在設備上的性能，包括在MuJoCo物理模擬器中進行測試。開發(fā)者只需50—100個演示即可完成模型評估，讓機器人快速學習新技能。

VLA成“必爭之地”，這些國內(nèi)機器人公司也布局了

如果過去十年，機器人領域的焦點先后經(jīng)歷了“看得見”的視覺感知、“聽得懂”的語言理解，那么在VLA模型出現(xiàn)之后，機器人開始走向“動得準”的第三階段。

當下，VLA模型已逐漸成為具身智能行業(yè)的共識，被視為連接感知、語言與行為的通用架構(gòu)。今年6月，在2025北京智源大會上，Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman表示，VLA是通往通用智能的重要基石，能夠讓機器人從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學習并轉(zhuǎn)化為具體行動。

記者梳理發(fā)現(xiàn)，今年以來，不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型，銀河通用、智元機器人、自變量機器人等國內(nèi)機器人公司也已在這一領域有所布局。

今年6月1日，銀河通用正式推出自主研發(fā)的產(chǎn)品級端到端導航大模型TrackVLA。這是一款具備純視覺環(huán)境感知、語言指令驅(qū)動、可自主推理、具備零樣本泛化能力的具身大模型。而在一周后的2025北京智源大會上，銀河通用又發(fā)布了全球首個面向零售場景的端到端VLA大模型GroceryVLA。

根據(jù)現(xiàn)場展示，在現(xiàn)場搭建的1比1還原真實商超場景中，當銀河通用創(chuàng)始人兼CTO王鶴向搭載了GroceryVLA的機器人Galbot發(fā)出“我又熱又餓，幫我拿點吃的”這一指令后，Galbot能夠自主精確地移動到準確位置，在貨架中為顧客選擇餅干和飲料等食物，然后有序地拿取并送到顧客手中，全程無遙控操作，并且無事先采集場景數(shù)據(jù)。

今年3月，智元機器人發(fā)布了首個通用具身基座模型智元啟元大模型（Genie Operator-1，簡稱GO-1），該模型采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu)，由VLM（視覺語言模型）和MoE（混合專家）組成，實現(xiàn)了可以利用人類視頻學習，完成小樣本快速泛化。目前，GO-1大模型已成功部署到智元多款機器人本體之中。

此外，智元機器人還聯(lián)合香港大學推出UniVLA系統(tǒng)。據(jù)介紹，UniVLA是一個具備跨機器人本體、場景與任務泛化能力的通用策略學習系統(tǒng)。它通過構(gòu)建以任務為中心的隱式動作空間，利用語言描述與視頻示范進行策略學習，實現(xiàn)從“看視頻”、“聽指令”到“動手操作”的通用控制。

而作為國內(nèi)唯一一家從創(chuàng)業(yè)第一天就選擇了端到端統(tǒng)一大模型技術路線的公司，自變量機器人研發(fā)的WALL-A則是世界上最大規(guī)模的端到端統(tǒng)一具身大模型。這一模型突破了傳統(tǒng)分層架構(gòu)的噪聲傳遞問題，支持從原始傳感器信號到機器人動作的縱向統(tǒng)一和橫向任務統(tǒng)一，跨任務泛化能力出色。

今年5月，自變量機器人宣布完成數(shù)億元A輪融資，由美團戰(zhàn)投領投、美團龍珠跟投。公司表示，本輪融資將用于持續(xù)加速全自研端到端通用具身智能大模型與機器人本體的同步迭代，以及未來多個應用場景的智慧化方案合作和落地。成立起不到一年半時間內(nèi)，自變量機器人已完成7輪融資，累計融資金額超10億元。據(jù)投資人介紹，公司所堅持的“大小腦統(tǒng)一的端到端大模型”路線，正是多家投資機構(gòu)青睞自變量機器人的核心原因。

校對：廖勝超

責任編輯：高蕊琦

VLA模型

Gemini Robotics On-Device

具身智能

聲明：證券時報力求信息真實、準確，文章提及內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達個人看法，并不表明證券時報立場