為敏捷機器人微調視覺語言模型 (VLM) | 安馳科技股份有限公司 Macnica Anstek Inc.

ADI 如何減少資料依賴，加速模型開發進程

我們本應期待機器人已廣泛普及於生活各處。但實際上，教會機器人執行基礎任務的成本，往往高於硬體本身的價格。事實上，若將整合、操作人員培訓、維護、網路安全及責任保險等成本納入考量，機器人的總體擁有成本 (TCO) 通常會比其標價高出 50% 至 100%。

每當想讓機器人掌握新技能，或是最佳化它的現有功能時，你不得不在新的配置上投入成本。這一侷限減緩了機器人的應用普及速度，尤其對「少量多樣 (High-mix, low-volume)」的產業影響顯著。這也是為何我們常見機器人用於汽車車身製造，卻鮮少用於客製化內飾生產的原因。

能像人類一樣理解世界的機器人，不僅需要感測器與程式碼，更需具備跨模態的解讀與推論能力。ADI 正探索如何透過視覺語言模型 (VLM) 填補這一空白，目標是讓機器人更高效地理解周邊環境；更理想的情況是，即便在訓練資料有限的條件下，也能助力機器人智慧地執行任務。

攻克機器人領域的資料難題

在任何人工智慧 (AI) 訓練流程中，資料都是第一步。而機器人領域的電腦視覺任務，往往面臨訓練樣本不足的問題。收集並標註新的大規模資料集不僅耗時，成本也十分高昂。

視覺語言模型 (VLM) 為這一難題提供了極具吸引力的解決方案：這類模型基於網際網路等級的海量資料完成預訓練，不僅能對從未接觸過的任務展現出強大的零樣本學習 (Zero-shot learning) 能力，還具備處理複雜多模態輸入的能力。

在近期研究中，ADI 位於愛爾蘭利默里克 (Limerick) 的團隊將 VLM 整合到機器人框架中，實現了以下功能：

識別物體狀態
解讀空間環境
在任務執行之前驗證內部狀態

這種方法能讓機器人藉助視覺與文字線索進行上下文推論，同時提升機器人在不同任務間的靈活性與適應性。此外，這種方法減少了對僵化預編程邏輯的依賴，使系統在應對環境變化時更具韌性。

無額外負擔的微調方案

大模型面臨的另一大挑戰，是如何將模型適配到特定的應用場景中。為使通用型 VLM 符合目標機器人應用的需求，研究團隊採用了參數高效微調 (PEFT) 技術，基於低秩適應 (LoRA) 方法。這種方法會凍結基礎模型，僅對少量新增參數進行微調。結果表明，這種方法的準確度達到了與完整微調相近的水準，而運算與儲存成本得到了大幅降低。

研究團隊使用 182 張影像進行訓練、102 張影像進行測試，驗證了 PEFT 在低資料場景下的有效性。如此一來，即便是運算資源或資料有限的機器人研發團隊，也能輕鬆應用 VLM。

PEFT 還支援更快的實驗迭代。透過最小化微調所需的參數規模，研究團隊得以快速嘗試不同的模型架構與任務配置，在無需承擔高額訓練成本的情況下，找到最佳解決方案。

從真實測試中發現的核心洞見

儘管 VLM 在機器人領域的應用潛力已十分明確，但在真實場景落地過程中，仍暴露出若干挑戰：

空間推論：在雜亂或動態場景中，模型難以理解物體間的關聯、因果邏輯及物理互動。
提示詞敏感性：與多數語言模型類似，VLM 的輸出結果差異顯著。即便提示詞 (Prompt) 僅存在細微措辭變化，也可能導致輸出截然不同，因此需要精心設計提示詞。
整合複雜性：要想對模型進行客製化，需深入理解模型的架構，過程中既要添加任務專屬提示資訊，還需處理好多模態資料的對齊問題。

為解決這些問題，研究團隊採用了更豐富的文字輸入與提示詞工程 (Prompt Engineering) 技術，透過最佳化提示詞，引導模型輸出更可靠的結果。例如，調整問題表述方式或補充背景資訊後，物體偵測精度與狀態分類效果均得到提升。

另一項關鍵發現是「人在迴圈 (Human-in-the-loop, HITL)」評估的重要性。在即時使用者互動過程中，研究團隊觀察到模型對複雜細微查詢的響應情況，不僅識別出模型在穩健性上的不足，也為迭代最佳化方案提供了依據。

邁向自然的人機互動

VLM 的價值不止於提升視覺能力，更是推動機器人向更自然、更具互動性、更通用化發展的重要一步。這類模型還能處理視覺語言類任務，例如影像描述生成、視覺問答 (VQA) 與邏輯推論。與可解釋性人工智慧 (XAI) 原則相契合的是，VLM 在感知與溝通兩方面均堪稱理想方案。

研究團隊藉助 VLM 開發的機器人 AI 代理 (Agent) 具備三大優勢：

對新場景與動態環境的適應性更強
對大規模標註資料集或人工編寫規則的依賴度降低
可透過自然語言提升溝通效率

研究團隊將這些技術原則應用於人機互動場景，以最佳化使用者體驗。在這類場景中，機器人若能以人類語言解釋自身的計畫與行動，不僅有助於建立信任，還能提升易用性。操作人員可下達靈活的指令，並以自然語言接收機器人的回饋；在機器人做出行動之前，操作人員還能根據自身需求調整機器人的行動方案。

展望未來

研究團隊的成果為推動可擴展、資料高效的機器人策略奠定了重要基礎。隨著 VLM 的不斷發展，研究團隊看到了以下方面日益增長的潛力：

將經過壓縮和最佳化的模型部署到終端裝置 (Edge devices)
使用基於基準 (Benchmark) 的評估，進行更清晰的安全評估
將 VLM 與強化學習 (Reinforcement Learning) 和感測器融合技術相結合，以獲得更豐富的上下文理解

另一個潛在的未來方向是探索視覺-語言-行動 (VLA) 模型，VLA 模型整合了行動、規劃和執行，使機器人能夠基於視覺感知和自然語言理解來決定並執行物理動作。VLA 在單個系統中直接實現了「感知-理解-行動」的閉環，擴展了 LLM/VLM 在現實世界中執行任務的泛化能力。

ADI 公司已經對其中一些模型進行了探索，並首次嘗試在位於利默里克的 ADI 公司 Catalyst™ 中心的真實機器人上進行測試。

結語

視覺語言模型將成為下一代機器人的核心基礎，使得機器人系統不僅能透過更少的範例完成學習，還能以更直觀的方式與人互動，在多樣化任務中展現出類人水準的泛化能力。使用者甚至有望讓機器人按照使用者自己的方法完成任務。