為敏捷機器人微調視覺語言模型 (VLM)

ADI 如何減少資料依賴,加速模型開發進程

我們本應期待機器人已廣泛普及於生活各處。但實際上,教會機器人執行基礎任務的成本,往往高於硬體本身的價格。事實上,若將整合、操作人員培訓、維護、網路安全及責任保險等成本納入考量,機器人的總體擁有成本 (TCO) 通常會比其標價高出 50% 至 100%。

每當想讓機器人掌握新技能,或是最佳化它的現有功能時,你不得不在新的配置上投入成本。這一侷限減緩了機器人的應用普及速度,尤其對「少量多樣 (High-mix, low-volume)」的產業影響顯著。這也是為何我們常見機器人用於汽車車身製造,卻鮮少用於客製化內飾生產的原因。

能像人類一樣理解世界的機器人,不僅需要感測器與程式碼,更需具備跨模態的解讀與推論能力。ADI 正探索如何透過視覺語言模型 (VLM) 填補這一空白,目標是讓機器人更高效地理解周邊環境;更理想的情況是,即便在訓練資料有限的條件下,也能助力機器人智慧地執行任務。

攻克機器人領域的資料難題

在任何人工智慧 (AI) 訓練流程中,資料都是第一步。而機器人領域的電腦視覺任務,往往面臨訓練樣本不足的問題。收集並標註新的大規模資料集不僅耗時,成本也十分高昂。

視覺語言模型 (VLM) 為這一難題提供了極具吸引力的解決方案:這類模型基於網際網路等級的海量資料完成預訓練,不僅能對從未接觸過的任務展現出強大的零樣本學習 (Zero-shot learning) 能力,還具備處理複雜多模態輸入的能力。

在近期研究中,ADI 位於愛爾蘭利默里克 (Limerick) 的團隊將 VLM 整合到機器人框架中,實現了以下功能:

  • 識別物體狀態

  • 解讀空間環境

  • 在任務執行之前驗證內部狀態

這種方法能讓機器人藉助視覺與文字線索進行上下文推論,同時提升機器人在不同任務間的靈活性與適應性。此外,這種方法減少了對僵化預編程邏輯的依賴,使系統在應對環境變化時更具韌性。

無額外負擔的微調方案

大模型面臨的另一大挑戰,是如何將模型適配到特定的應用場景中。為使通用型 VLM 符合目標機器人應用的需求,研究團隊採用了參數高效微調 (PEFT) 技術,基於低秩適應 (LoRA) 方法。這種方法會凍結基礎模型,僅對少量新增參數進行微調。結果表明,這種方法的準確度達到了與完整微調相近的水準,而運算與儲存成本得到了大幅降低。

研究團隊使用 182 張影像進行訓練、102 張影像進行測試,驗證了 PEFT 在低資料場景下的有效性。如此一來,即便是運算資源或資料有限的機器人研發團隊,也能輕鬆應用 VLM。

PEFT 還支援更快的實驗迭代。透過最小化微調所需的參數規模,研究團隊得以快速嘗試不同的模型架構與任務配置,在無需承擔高額訓練成本的情況下,找到最佳解決方案。

從真實測試中發現的核心洞見

儘管 VLM 在機器人領域的應用潛力已十分明確,但在真實場景落地過程中,仍暴露出若干挑戰:

  • 空間推論:在雜亂或動態場景中,模型難以理解物體間的關聯、因果邏輯及物理互動。

  • 提示詞敏感性:與多數語言模型類似,VLM 的輸出結果差異顯著。即便提示詞 (Prompt) 僅存在細微措辭變化,也可能導致輸出截然不同,因此需要精心設計提示詞。

  • 整合複雜性:要想對模型進行客製化,需深入理解模型的架構,過程中既要添加任務專屬提示資訊,還需處理好多模態資料的對齊問題。

為解決這些問題,研究團隊採用了更豐富的文字輸入與提示詞工程 (Prompt Engineering) 技術,透過最佳化提示詞,引導模型輸出更可靠的結果。例如,調整問題表述方式或補充背景資訊後,物體偵測精度與狀態分類效果均得到提升。

另一項關鍵發現是「人在迴圈 (Human-in-the-loop, HITL)」評估的重要性。在即時使用者互動過程中,研究團隊觀察到模型對複雜細微查詢的響應情況,不僅識別出模型在穩健性上的不足,也為迭代最佳化方案提供了依據。

邁向自然的人機互動

VLM 的價值不止於提升視覺能力,更是推動機器人向更自然、更具互動性、更通用化發展的重要一步。這類模型還能處理視覺語言類任務,例如影像描述生成、視覺問答 (VQA) 與邏輯推論。與可解釋性人工智慧 (XAI) 原則相契合的是,VLM 在感知與溝通兩方面均堪稱理想方案。

研究團隊藉助 VLM 開發的機器人 AI 代理 (Agent) 具備三大優勢:

  • 對新場景與動態環境的適應性更強

  • 對大規模標註資料集或人工編寫規則的依賴度降低

  • 可透過自然語言提升溝通效率

研究團隊將這些技術原則應用於人機互動場景,以最佳化使用者體驗。在這類場景中,機器人若能以人類語言解釋自身的計畫與行動,不僅有助於建立信任,還能提升易用性。操作人員可下達靈活的指令,並以自然語言接收機器人的回饋;在機器人做出行動之前,操作人員還能根據自身需求調整機器人的行動方案。

展望未來

研究團隊的成果為推動可擴展、資料高效的機器人策略奠定了重要基礎。 隨著 VLM 的不斷發展,研究團隊看到了以下方面日益增長的潛力:

  • 將經過壓縮和最佳化的模型部署到終端裝置 (Edge devices)

  • 使用基於基準 (Benchmark) 的評估,進行更清晰的安全評估

  • 將 VLM 與強化學習 (Reinforcement Learning) 和感測器融合技術相結合,以獲得更豐富的上下文理解

另一個潛在的未來方向是探索視覺-語言-行動 (VLA) 模型,VLA 模型整合了行動、規劃和執行,使機器人能夠基於視覺感知和自然語言理解來決定並執行物理動作。VLA 在單個系統中直接實現了「感知-理解-行動」的閉環,擴展了 LLM/VLM 在現實世界中執行任務的泛化能力。

ADI 公司已經對其中一些模型進行了探索,並首次嘗試在位於利默里克的 ADI 公司 Catalyst™ 中心的真實機器人上進行測試。

結語

視覺語言模型將成為下一代機器人的核心基礎,使得機器人系統不僅能透過更少的範例完成學習,還能以更直觀的方式與人互動,在多樣化任務中展現出類人水準的泛化能力。使用者甚至有望讓機器人按照使用者自己的方法完成任務。