论文阅读笔记之——《Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey》

2025-10-30

引言

动作视觉语言(Vision-Language-Action,VLA)模型正成为机器人理解环境与执行任务的核心框架。 然而,主流VLA系统通常依赖体量庞大的视觉与语言模型。 这些模型普遍依赖大规模的视觉编码器和语言模型,导致推理过程计算复杂度高、延迟大、内存占用高。同时,动作输出的连续性与平滑性问题也直接影响任务执行的可靠性。这些瓶颈严重制约了VLA模型在实时、资源受限场景下的应用。 因此,本博文,对survey paper——Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey进行阅读,并记录阅读过程的一些心得想法。

本博文仅供本人学习记录用,其他与VLA相关的调研请见博客:

对于高效的VLA架构,代表性工作的发展时间节点如下图所示:

对于提升VLA”效率”,该论文从下几个维度展开:

1. 高效模型架构设计(model architecture)

在维持模型性能上限的同时,最小化平均推理开销。

  1. 压缩骨干模型(Static Backbone Selection):使用参数量更小的预训练模型,或设计轻量化的序列模型来替代超大规模的骨干网络。此类策略直接减少了参数量与内存占用,实现简单,但存在压缩模型性能上限的风险。
    • ​​RoboMamba​​:引入Mamba状态空间模型架构作为序列模型,参数量约为2.7B,相比基于Transformer的LLM,能更高效地进行时间建模和并行推理,从而减少延迟。
    • ​Tiny VLA​​:使用Pythia-1.3B等小型LLM,在保持核心任务能力的同时压缩整体模型,使边缘部署更可行。
    • ​​SmolVLA​​:采用SmolVLM-2(参数量为0.24B、0.45B、2.25B),并通过剪枝最终的Transformer层进一步减少计算。
    • NORA​​:将骨干网络替换为Qwen-2.5-VL-3B,以实现更小的占用空间但同时保留强大的性能。
  2. 动态计算路径(Dynamic Computation Pathways):在训练阶段保留大型骨干网络,但在推理阶段引入动态路径选择,以在不完全牺牲能力的情况下提高效率。模型保留大型架构的表达能力,同时在特定任务上下文中丢弃冗余计算。 此类方法能在保障复杂样本处理能力的同时,显著降低平均计算成本,但代价是增加了路由机制和训练的复杂度。
    • ​​SmolVLA​​:采用简单的层剪枝策略,永久移除语言模型中固定数量的最终层(final layers)。
    • ​​FLOWER​​:基于LLM的可解释性发现,剪枝冗余的顶层(如编码器-解码器VLM中的解码器或仅解码器模型中的最后几层),以平衡上下文表达能力和计算效率。
    • DEER-VLA​​:引入早期退出机制(early-exit mechanism),在语言模型不同中间层放置轻量级策略头( lightweight policy heads),通过输出相似性指标(output-similarity metric)决定是否提前退出。退出阈值通过平衡平均/峰值FLOPs和GPU内存使用的约束目标进行优化。
    • ​​MoLE-VLA​​:将语言模型的每一层视为潜在专家,采用Mixture-of-Experts (MoE) 框架,通过门控机制(gating mechanism)动态选择参与计算的层。为稳定训练,还应用了自蒸馏(self-distillation),完整/未剪枝的网络用于指导如何减少计算的path。
    • ​Efficient-VLA (采用similarity-based skipping)​​:通过测量层输入和输出特征向量之间的余弦相似度来评估每层的贡献,如果相似度超过阈值,则在推理时跳过该层。
  3. 双系统架构设计(Dual-System Design)​:受认知科学双系统理论启发,将模型分为一个用于复杂推理和长期规划的“慢系统”和一个用于快速、直观响应的“快系统”。两个子系统协同工作,处理复杂的、高层次任务,同时确保简单场景下的低延迟推理。通常采用异构模型架构:慢系统依赖大型多模态语言模型(MMLM)进行语义理解和推理,快系统采用轻量级模型快速响应感知输入。两个系统通过潜在Token或嵌入交换信息。
    • ​LCB​​:使用LLaVA作为慢系统生成语言描述和动作提示,然后指导3D Diffuser Actor作为快系统通过可学习的<ACT>Token生成最终动作。
    • ​​HiRT​​:采用InstructBLIP作为慢系统生成表示,然后由EfficientNet-B3作为快系统通过MAP池化进行高效控制。
    • ​RoboDual​​:结合OpenVLA作为慢系统和DiT作为快系统。慢系统输出潜在表示,快系统通过Perceiver Resampler进行细化以重建简化的动作输出。
    • ​OpenHelix​​:提供主流双系统框架的系统回顾和评估,并提出了优化的模块化配置。具体来说,LLaVA-7B作为慢系统,3D Diffuser Actor作为快系统,通过可学习的<ACT>Token进行通信。
    • FiS将“快”和“慢”两种处理模式融入一个统一的神经网络结构中,而不是分离成两个独立的模型。它通过网络内部不同层次的功能划分来实现这种“隐式”的双系统。浅层(Shallow layers)​​负责处理输入信息,构建出中间的语义表示.最终层(Final layer)​利用这些语义表示来预测最终的动作。这可以看作是“快系统”的一部分,基于已有的语义信息快速做出决策。
    • Hume引入了一种级联双系统结构。慢系统在多个噪声尺度下生成候选动作块,而一个可学习的聚合 token 输入到一个 value query head,该query head对候选动作进行评分。最有希望的动作块随后由快系统进一步分解和去噪,以产生最终的动作序列。训练是联合进行的:policy head和快系统通过flow matching进行优化,并且policy head使用离线强化学习在带有奖励标注的数据集上进行训练。

2. 感知特征压缩(Efficient Perception Feature)

视觉模态输入通常构成最长的Token序列,是VLA模型最主要的计算开销来源。

  1. 单帧特征选择性处理(Selective Processing of Single-Frame Perception),即在信息到达下游策略网络之前,修剪、压缩或转换冗余信息。 通过基于注意力分数或特征相似度等指标,筛选并保留任务相关的视觉token,或通过token压缩机制将可变长度的长序列映射为固定长度的紧凑表示。
    • ​​基于注意力分数的剪枝 (Attention-Score Based Pruning)​:在推理过程中直接修剪视觉令牌。通过计算每个视觉令牌在LLM中间层接收到的平均注意力分数,并根据这些重要性分数进行Top-K剪枝。
      • ​​FastV​​:计算每个视觉令牌在LLM中间层从所有令牌接收到的平均注意力,并根据这些重要性分数进行Top-K剪枝。
      • EfficientVLA​​:进一步量化视觉令牌与任务指令之间的交互,选择捕捉语义相关性的关键令牌,并通过高注意力和多样性驱动的令牌来增强它们,以确保表示的丰富性。
      • ​​SP-VLA​​:强调令牌剪枝应保留空间结构,除了通过注意力捕获的语义重要性外,还通过边缘检测测量轮廓线索的空间相关性,保留满足任一标准的令牌,确保场景完整性。SP-VLA还引入了自适应剪枝,根据运动动态调整剪枝的激进程度,在任务要求变化时权衡效率和保真度。
    • ​​基于特征的替代方法 (Feature-Based Alternatives)​:不直接依赖注意力分数,而是通过其他特征分析方法来评估令牌的重要性。
      • ​​FlashVLA​​:通过对注意力输出矩阵应用奇异值分解(SVD)来推导信息贡献分数(ICS),该分数衡量每个令牌在主奇异方向上的投影。
    • ​​动态和上下文感知的剪枝策略 (Dynamic and Context-Aware Pruning Strategies)​:将语言指令和动作信息整合到剪枝过程中,使剪枝更加智能和适应性强。
      • LightVLA​​:针对视觉编码器生成的视觉令牌,而不是LLM内部操作。它采用查询驱动的令牌选择机制,通过跨模态注意力动态生成查询,识别最具信息量的视觉令牌。选择过程通过Gumbel-Softmax结合直通估计器实现可微分,从而实现端到端训练,同时保留空间位置编码,无需手动预定义保留多少令牌。
      • ADP​​:引入两阶段机制:首先,任务驱动的静态剪枝计算文本查询和跨模态注意力,评估每个视觉令牌的全局重要性,保留与指令最相关的令牌;其次,动态的、动作感知的开关根据最近的末端执行器运动调整剪枝,使用滞后机制在粗略运动期间平衡压缩,在精确操作期间平衡感知保真度。
      • ​​FASTDriveVLA​​:类似地将动作感知集成到令牌剪枝中,但在训练期间添加了前景-背景对抗重建,确保模型能够区分关键前景信息和冗余背景信息。令牌分数通过一个轻量级评分器计算,该评分器结合了令牌特征和通过Hadamard融合的可学习查询,并在推理期间应用Top-K选择,同时保留位置信息。
      • ​SpecPrune-VLA​​:一种无训练的剪枝方法,通过启发式控制执行两级令牌减少。在动作级别,静态剪枝评估先前动作的全局令牌冗余和当前动作的局部令牌相关性,在生成之前减少视觉令牌。在层级别,动态剪枝利用令牌和模型层之间的相关性,根据层特定的重要性剪枝令牌。一个轻量级的、动作感知的控制器根据当前动作的粒度进一步调整剪枝——粗粒度动作允许更多剪枝,而细粒度动作需要更高的保真度。
      • ​​SQAP-VLA​​:通过空间和量化感知的令牌剪枝框架解决这些挑战,结合了三个互补机制:在量化下保留任务关键令牌,保护机器人末端执行器附近的令牌,以及采样令牌以保持空间覆盖。这些策略共同确保最终保留的令牌集平衡效率、稳定性和覆盖范围,从而实现可靠的低位推理。
    • 表示转换 (Representation Transformation)​:通过压缩或统一表示来减少信息量或简化多模态集成。
      • ​OTTER​​:受Perceiver框架启发,提出了一种交叉注意力池化机制。在文本指令的引导下,该模块将视觉和文本令牌压缩成固定长度的紧凑表示。这种侧重于压缩而非丢弃的方法为处理长输入序列提供了新的范式。
      • ​​UniVLA​​:旨在通过将所有输入转换为来自共享词汇表的离散令牌来统一视觉、文本和动作模态。这种同质表示实现了模态间的无缝集成,并简化了下游任务(如感知接地、世界建模和策略学习)的训练,从而改善了多模态集成。虽然令牌化降低了视觉粒度,但它可以显著缩短序列长度并简化多任务训练。
  2. 跨时序特征复用(Temporal Sharing and Reuse) 即利用帧间相似性,避免对静态或缓慢变化的特征进行重复计算。利用机器人观测数据在时间上的高度连续性,复用帧间不变或缓变的特征。时序复用能显著降低连续帧之间的重复计算,但必须引入有效的缓存刷新机制来判断复用的安全性,以避免信息漂移或性能退化。
    • ​​VLA-cache​​:通过重用基于Transformer架构中静态图像块的键值(KV)缓存来解决连续帧之间的冗余。这些KV缓存存储Transformer的键值向量,允许模型跳过对未更改块的重新计算

3.动作生成加速 (Efficient Action Generation)

动作是连接感知与执行的关键环节,其表示方法和生成策略直接影响任务精度与系统延迟。

  1. Raw Action Generation:直接输出低维连续动作向量以实现最低延迟,但逐步预测在长时序任务中会产生累积误差。改进手段包括动作块化(一次生成多步并做时间平滑)和动作序列压缩(频域变换与量化编码)。这些方法兼顾吞吐量与平滑性,但需处理块边界一致性问题。
  2. Reasoning-Aware Action:在动作前引入显式推理,包括语言层面的任务分解和视觉层面的子目标预测。此类方法提升可解释性与跨场景泛化,但显著增加序列长度与推理延迟。实践中常采用选择性推理或对高层推理结果实施缓存以减少频繁调用成本。

4. 训练推理优化(training/inference strategies)

  1. 训练端的重点在于降低模型在新任务和新环境下的适配成本。常用策略包括参数高效微调、知识蒸馏、结构化剪枝与量化感知训练。前两者通过少量可学习参数或教师–学生迁移实现快速适配,后两者则在压缩模型规模的同时保持控制精度,整体提升了模型的部署效率与可扩展性。
    • 知识蒸馏 (Knowledge Distillation)​:将大型、复杂的教师模型的知识转移到小型、高效的学生模型中,从而在保持性能的同时降低模型复杂度。
    • ​​MoLE-VLA​​:在训练过程中应用自蒸馏,其中完整的、未剪枝的网络为简化的计算路径提供指导,以稳定训练并保持性能。
    • 通用蒸馏方法​​:可以将预训练的大型VLM作为教师模型,指导训练一个更小的、针对具身任务优化的VLA模型。 * 量化 (Quantization)​:将模型参数和激活从高精度浮点数(如FP32)转换为低精度表示(如INT8、FP16),以减少内存占用和计算需求,同时加速推理。
    • ​​SQAP-VLA​​:通过空间和量化感知的令牌剪枝框架,解决了低精度量化下的鲁棒性问题,确保在量化设置下仍能保留任务关键令牌,从而实现可靠的低位推理
    • 通用量化技术​​:可以应用于VLA模型的各个组件,包括视觉编码器、语言模型和动作头,以实现全面的效率提升。 * ​剪枝 (Pruning)​:移除模型中不重要或冗余的连接、神经元或层,以减小模型大小和计算量。
    • SmolVLA​​:通过剪枝最终的Transformer层来减少计算 3,也采用简单的层剪枝策略永久移除语言模型中固定数量的最终层。
    • FLOWER​​:剪枝冗余的顶层(如编码器-解码器VLM中的解码器或仅解码器模型中的最后几层),以平衡上下文表达能力和计算效率。
    • FastV, EfficientVLA, SP-VLA, FlashVLA, LightVLA, ADP, FASTDriveVLA, SpecPrune-VLA, SQAP-VLA​​:这些方法在感知特征维度中详细描述,它们通过剪枝视觉令牌来减少输入到下游策略网络的令牌序列长度,本质上也是一种剪枝策略,但侧重于输入数据而非模型结构本身
  2. 推理端聚焦于突破自回归瓶颈,实现并行化或混合解码。典型路径包括采用并行草案与一次验证的投机式解码、使用双向或部分并行注意力结构以增强吞吐,以及通过一致性蒸馏缩小训练与并行推理间的分布差,从而确保稳定性与收敛速度。
  • 补充说明:
对于Efficient VLA的设计有四个维度:
1. 高效的模型架构设计。
* 压缩网络/模型,但同时带来性能压缩的风险。那进一步的,采用大模型(教师模型)的特征进行知识蒸馏,或许可以改善和提升压缩后的小模型(学生模型)的性能(这部分其实在第四点有体现)。
* 训练时保留模型的全部能力,推理时根据输入复杂度动态选择计算路径。
* 快慢双系统的设计本身就属于解耦模型的推理与反应功能。“慢系统”负责理解和规划,“快系统”负责以较高频率生成动作以及部分动作可能可以复用。

1. 感知特征压缩————保留必要空间与时间信息的同时,显著降低计算负担,实现高效决策
* 通过注意力分数或特征相似度等指标,筛选有效token,或者对token进行压缩等紧凑表示。
* 复用帧间不变或缓变的特征

1. 动作生成的加速
* 一次性输出多步动作块(并做时间平滑),或者对动作序列进行token化或频域变换

1. 训练与推理的优化
* 训练部分包括:参数微调、知识蒸馏、结构化剪枝与量化感知训练。
* 推理部分包括:并行化或混合解码。

参考资料