前言 Vision Transformers 为各种分割任务提供了强大、统一甚至更简单的解决方案。本调查全面概述了基于Transformers 的视觉分割,总结了最近的进展。本文首先回顾背景,包括问题定义、数据集和先前的卷积方法。接下来,总结了一个 meta 架构,它统一了所有最近基于 transformer 的方法。本文还介绍了几个密切相关的设置,包括 3D 点云分割、基础模型调整、域感知分割、高效分割和医学分割。此外,在几个成熟的数据集上编译和重新评估审查的方法。最后,确定了该领域的开放挑战,并提出了未来研究的方向。
欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
CV各大方向专栏与各个部署框架最全教程整理
【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!
论文: https:// arxiv.org/pdf/2304.0985 4.pdf
Page: https:// github.com/lxtGH/Awesom e-Segmenation-With-Transformer
与 CNN 方法相比,大多数基于 Transformers 的方法具有更简单的 pippline 但性能更强。由于基于 Transformer 的视觉模型迅速兴起,一些方法对视觉 Transformer 进行了多项调查。然而,他们中的大多数主要关注通用 Transformers 设计及其在几个特定视觉任务中的应用。还没有关于使用 ViT 进行视觉分割或基于查询的对象检测的调查。由此作者试图进行总结这些工作并继续跟踪这个不断发展的领域。
本文系统地介绍了基于 Transformer 的视觉分割方法的最新进展。首先定义任务、数据集和基于 CNN 的方法,然后转向基于 Transformer 的方法,涵盖现有方法和未来的工作方向。其调查从方法细节的更技术角度对现有的代表作品进行了分组。特别是,首先将现有方法的核心框架总结为元体系结构。通过改变元架构的组件,将现有方法分为六类,包括Representation Learning、Decoder中的交互设计、Optimizing Object Query、Using Query For Association、Conditional Query Generation。
具体的数据集信息如下:
基于 transformer 的分割的关键技术,例如 meta 架构包含一个特征提取器、对象查询和一个转换器解码器。
同时,本文从五个方面回顾了基于变换器的分割方法:
本文将解码器设计分为两组:一组用于改进图像分割中的交叉注意设计,另一组用于视频分割中的时空交叉注意设计。前者侧重于设计更好的解码器,以改进原始 DETR 中的原始解码器。后者将基于查询的对象检测器和分割器扩展到 VOD、VIS 和 VPS 的视频域,重点是对时间一致性和关联进行建模。经典方法的总结对比如下:
3D点云分割等方面的总结:
作者在最近基于 Transformer 的视觉分割,并列出了先前讨论的算法的性能,并选择最广泛使用的数据集作为第 性能评估基准。下面是一些分割方法的对比举例:
本文首次调查全面回顾了基于 Transformer 的视觉分割的最新进展,涵盖了必要的背景知识和 Transformer 之前工作的概述,并总结了 120 多种用于各种分割任务的深度学习模型。最近的作品根据分段器的元架构分为六类。此外,本文还回顾了五个密切相关的领域,并报告了几种具有代表性的分割方法在广泛使用的数据集上的结果。为了确保公平比较,还在相同设置下重新对几部代表性作品进行了基准测试,最后总结指出基于 Transformer 的视觉分割的未来研究方向。
计算机视觉入门1v3辅导班
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
CUDA 教程(三)CUDA C 编程简介
目标跟踪(二)单、多目标跟踪的基本概念与常用数据集
【CV技术指南】咱们自己的CV全栈指导班、基础入门班、论文指导班 全面上线!!
即插即用模块 | RFAConv助力YOLOv8再涨2个点
CVPR 2023|21 篇数据集工作汇总(附打包下载链接)
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
LargeKernel3D:在3D稀疏CNN中使用大卷积核
ViT-Adapter:用于密集预测任务的视觉 Transformer Adapter
CodeGeeX 130亿参数大模型的调优笔记:比FasterTransformer更快的解决方案
分割一切还不够,还要检测一切、生成一切,SAM二创开始了
CVPR 2023 深挖无标签数据价值!SOLIDER:用于以人为中心的视觉
SegGPT:在上下文中分割一切
上线一天,4k star | Facebook:Segment Anything
Efficient-HRNet | EfficientNet思想+HRNet技术会不会更强更快呢?
实践教程|GPU 利用率低常见原因分析及优化
ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off
目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)
CNN的反击!InceptionNeXt: 当 Inception 遇上 ConvNeXt
神经网络的可解释性分析:14种归因算法
无痛涨点:目标检测优化的实用Trick
详解PyTorch编译并调用自定义CUDA算子的三种方式
深度学习训练模型时,GPU显存不够怎么办?
deepInsight:一种将非图像数据转换图像的方法
ICLR2023|基于数据增广和知识蒸馏的单一样本训练算法
拯救脂肪肝第一步!自主诊断脂肪肝:3D医疗影像分割方案MedicalSeg
AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习
改变几行代码,PyTorch炼丹速度狂飙、模型优化时间大减
AAAI 2023 | 轻量级语义分割新范式: Head-Free 的线性 Transformer 结构
计算机视觉交流群
聊聊计算机视觉入门