Paper Survey之——Awesome VLA

2025-09-19

本博客对VLA(Vision-Language-Action)进行调研整理。

在VLA模型出现之前,机器人技术和人工智能主要分布在彼此割裂的几个子领域:视觉系统能够“看”并识别图像;语言系统能够理解和生成文本;动作系统则能够控制物体运动。 如下图1所示。 传统的CV可以通过CNN来识别物体或者进行分类,但是并不能理解语言、也没有将视觉转换为action的能力。 而语言模型,特别是基于LLM的虽然可以革新了文本的理解以及生成,但是他们仍然只能处理语言文本,而不能感知或者推理物理世界。 与此同时,机器人中基于action的系统一般都是依赖于传统控制策略(hand-crafted policies)或者强化学习来实现例如目标抓取等等,但是这需要复杂的工程实现。

引言