ViT

ViT
ViT, vision transformer,是用于视觉任务的transformer。它不是将CNN与注意力机制粗糙地结合在一起,而是几乎完全保留了transformer的架构,仅在输入端对图像数据进行分割再降维处理,将图像变为序列,从而适配transformer。
ViT在大规模预训练条件下具有优于CNNs的图形处理能力(包括分类与检索、目标检测与分割、多模态与VLA、生成式视觉任务、自监督视觉表征学习等等任务),CNNs在边缘/超低算力场景、小数据集或低分辨率任务、高实时性要求等任务中仍较为重要。但是CNNs与ViT并不对立,而是在特定场景互相融合。
文献[1]是ViT的开山之作,它为VLA等相关研究奠定了基础。
其主要意义是突破了CNN之于图像处理的必要性:文章证明,ViT无需归纳偏置,即无需像CNN一样假设图像具有局部相关性、平移不变性,即可获得优于CNNs的图像分类能力。
其核心原理是将图像分割为固定大小的patch作为视觉token,并且直接在全局范围内建立所有patch之间的关系,无需局部卷积结构。
核心原理
ViT是在transformer的encoder输入端添加了对图像的特殊处理,其关键是将输入的2-D图像分割为若干大小相同的patch,然后将每个patch内的所有像素点及其通道变化为1-D向量,这个向量再经过一个线性变化就是transformer的一个token了。由此,就可以将一个图像,分割为若干token,这些token被称为 patch token。
此外,为了应对分类任务以及位置问题(在开山之作中),在输入的 pathc tokens 之前会加上 class token,并给所有token加上一个位置编码。这样得到的序列 z0 就可以输入到 transformer encoder了,最后在encoder输出序列的0位就是整个图像的全局语义表征。
值得注意的是,在分类任务中,ViT仅有encoder,而没有decoder。这是因为图像分类是判别式任务,是提取特征并将其映射到固定类别标签,不需要生成内容。而像图生图、文生图这种任务就需要transformer的decoder或者encoder-decoder架构。这里给出encoder和decoder的功能介绍如下:
| 模块 | 核心功能 | 适用任务类型 | 关键特性 |
|---|---|---|---|
| Encoder | 输入序列→全局特征编码 | 判别式任务(分类、检索) | 双向自注意力(全局交互) |
| Decoder | 特征→生成目标序列 | 生成式任务(翻译、图像生成) | 单向自注意力(避免信息泄露)+ 交叉注意力(关联Encoder特征) |
ViT 之数据流如下所示:
输入图像(224×224×3)→ 切分16×16 Patch(196个)→ 展平
+线性投影(196×768,Patch Token)→ 拼接Class Token(197×768)→ 加1D位置编码
→ Transformer Encoder编码 → 取Class Token输出 → 分类头 → 类别概率一句话总结:Vision Transformer 将图像表示为 patch 级 token 序列,通过全局自注意力机制直接建模长距离空间依赖关系。
关键问题
内容太多,单列出来,在 ViT关键问题
为什么 ViT
问题
ViT的研究背景是在NLP领域transformer成为主流,而在CV领域CNN仍占主导,并且行业普遍认为CNN的归纳偏置是视觉任务不可或缺的先验。此时的CV研究即使想引入transformer,也仅是将CNN与注意力机制粗糙结合。
动机
其动机是将transformer引入CV领域。
设计选择
ViT的设计选择主要是为了极简适配、生态复用、规模化能力。
- 极简适配:放弃复杂视觉专用设计,仅通过“分块+线性投影”将图像转化为序列;
- 生态复用:100%对齐NLP原生Transformer架构(Encoder、Class Token、位置编码、Pre-LN),直接复用NLP优化工程;
- 规模化能力:所有选择为“大规模预训练”服务——放弃CNN偏置,因大数据能替代人工先验;选择可学习编码、Pre-LN,支撑深层模型稳定训练。
局限与演进
原生ViT的局限包括:小数据集泛化能力弱、高分辨率场景计算成本爆炸、任务覆盖单一,仅支持图像分类、自监督预训练不成熟,依赖大规模有标注数据。
其主要向下面几个方向演进:优化计算效率、自监督预训练突破、从 “分类” 到 “全场景视觉任务”完成任务扩展。
此外,由于 ViT 与 NLP Transformer 的架构同源性,能够实现视觉、语言、动作的统一 token 化建模,研究人员还进行了跨模态与 VLA 融合相关方面的研究,
因此ViT的主要演进方向可以总结为弥补短板、放大优势:
- 弥补短板:通过 “局部注意力(效率)、自监督(数据依赖)、Encoder-Decoder(任务适配)” 解决论文中的核心局限;
- 放大优势:依托 “Transformer 统一架构、全局长距离建模、跨模态适配”,成为 VLA、多模态、生成式 AI 的核心骨架。
Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020. ↩︎
