2022年OpenAI发布的CLIP模型,大大提升了模型的跨模态理解能力,实习了视觉与语言的统一,也给VLN带来新的突破————零样本学习的能力使得机器人无需依赖人工标注,即可理解自然语言指令并执行高效导航。
本博文针对基于CLIP的VLN几篇论文对其进展进行调研。
本博文仅供本人学习记录用~
- Paper List
- Blog for VLN
- Blog for CLIP
- 论文阅读笔记之《Vision-and-language navigation today and tomorrow: A survey in the era of foundation models》
1. Cows on pasture: Baselines and benchmarks for language-driven zero-shot object navigation
对于一般能用的机器人,他们需要能够寻找人类描述(也就是语言)的任意物体,即使没有对域内数据进行昂贵的导航训练(也就是要实现zero-shot性能)。因此,作者提出language-driven zero-shot object navigation (L-ZSON)。
受到最近图像分类中的开放词汇模型(open-vocabulary models)的启发,作者提出一个直接的框架——CLIP on Wheels (CoW),也就是将开放词汇模型用到这个任务中(without fine-tuning)。从这个维度上说其实就跟,CLIP用到传统CV的任务是很类似的。
而为了验证L-ZSON,作者提出了PASTURE benchmark,需要考虑到寻找查找不常见的object、由空间和外观属性描述的object,以及相对于可见object描述的隐藏object。 而作者一共验证了90k个导航的集(90k navigation episodes),发现:
- Cow baseline通常很难利用语言描述,但擅长发现不常见的对象;
- 基于CLIP的object定义及经典的探索(不需要额外training)

本文主要是for object localization的,但是由于有语言的输入,且属于寻找物体,因此跟目标导向的VLN几乎是一样的。对于探索的方法有基于前沿的探索(Frontier based exploration,FBE,可以理解为用地图的探索 )也有基于learning的(可以理解为用trainable GRU的hidden state来记录)
而对于采用的开发词汇分类器(open-vocabulary classifiers),通过三种策略来fine-turn CLIP模型为object localizers:
- 采用CLIP的文本编码器来编码k个引用表达,特别指定目标物体在图像的哪个区域。比如
a plant in the top left of the image
。然后匹配当前观测的语言的embedding与CLIP的视觉embedding。计算图像和文本特征的相似性来决定区域的相关分数。 - 将图像离散化为k个小的patches,然后或者CLIP的patch embedding。然后将每个patch embedding与CLIP文本embeding进行卷积。如果object在patch中,对这个patch的相关分数就会很高。
- 修改一个可解析(interpretability)的方法,从ViT中提取物体的相关性。使用一个目标CLIP文本embedding以及CLIP视觉编码器的累积梯度信息,进而可以构建输入pixel的相关性的图,当object在视野中可以定性的分割目标。
对于开放词汇检测器与分割器(open-vocabulary detectors and segmentors)采用了两个额外的开发词汇模型来做object localization
- MDETR segmentation model,输入文本和图像,输出box检测。
- OWL-ViT detector用了一系列预测微调配方来将类似CLIP的方法转为物体检测。
实验测试测试了一系列基于CLIP的baseline的SR和SPL(Success weighted by inverse path length)