|谷歌用大語言模型結合機械臂，自然語言命令機器人指日可待？

2026-03-03

說起用自然語言命令機器人，可能很多朋友會覺得奇怪。現在的智能機器人不早就能語音控制和聊天交互了嗎？且不說公共場合商業中心等地方的商業服務智能機器人，聊天引導，語音交互服務，只看看身邊的和大眾離得很近的智能音箱，大家也能感覺到，語言命令機器人怎么能說指日可待，現在不已經用上了？
非也，此語音命令非彼語音命令。現在的智能機器人也好，智能音箱也罷，幾乎都是單句命令或者根據關鍵詞識別執行命令的。說到這里，機智客希望各位朋友就別列舉諸如某音短視頻里那種娛樂的能說會道斗嘴的機器人了，別把那娛樂玩意兒當技術就行，就好比你不必要把短視頻段子過分當真真實一樣。可以說，現在商用的非娛樂的成熟智能機器人，你可以命令“向前走兩步，給我唱首歌”而無法命令“去左邊桌子上拿個杯子過來” 。

后者，就是自然語言命令。它其實不僅僅是具體命令，更像是包含大量隱含信息的分支行動，更何況還有很多時候自然語言中的命令很不明顯。而這個讓機器人聽懂自然語言命令相關功能的實現，就是谷歌最新的研究。他們提出了一個名為「Saycan」（DO AS I CAN NOT AS I SAY）的算法，旨在讓機器人充當語言模型的手和眼睛，而語言模型提供有關任務的高級語義知識。
這里機智客換句大白話就是，你用自然語言交互，大語言模型理解稍微復雜你的話里的高級指令，將里面的有效信息提取出來，然后驅動機器人分解有效信息中的任務，做好步驟分解，做好一系列完全的執行。這個就是大型語言模型（LLM）與機器人的物理任務組合到一起。
據悉，這個方法是評估單個動作對完成整個高級指令有幫助的概率。機智客摘自這則科技資訊的方法概述是，每個動作都有一個語言描述，通過prompt語言模型讓模型給這些動作打分。此外，如果每個動作都有一個相應的affordance函數，可以量化它從當前狀態（比如學到的價值函數）獲得成功的可能性。兩個概率值的乘積就是機器人能成功地完成一個對于指令有幫助的動作的概率。根據這個概率將一系列動作排序，選取概率最高的一個。
上述就是摘自資訊報道里的概述。這里舉個具體的例子就是，如果用戶說，你會怎么給我一個可樂罐？大語言模型則會以一個明確的順序來回應，比如它的理解會是， 1、我找到一個可樂罐；2、把可樂罐撿起來；3、把它拿給你；4、完成。這里你的自然語言你的話就是高級指令，你傳達的有效信息就是語言模型指揮機器人要做的事情。
【|谷歌用大語言模型結合機械臂，自然語言命令機器人指日可待？】經多種測試顯示的結果總結出來，谷歌的這個算法方法實現101個任務的總計劃成功率為70% ，執行成功率為61% ，如果去掉affordance grouding ，大致會損失一半的性能。不過，進步已經不小了。

相關經驗推薦

上一篇：|摩托羅拉新機即將發布，主打極致輕薄，且性能出眾

下一篇：|旗艦級顯卡好搭檔！鑫谷GM1250W電源