Skip to content

ViT

约 1609 字大约 5 分钟

visiontransformer

2026-03-03

ViT结构
ViT结构

ViT

ViT, vision transformer,是用于视觉任务的transformer。它不是将CNN与注意力机制粗糙地结合在一起,而是几乎完全保留了transformer的架构,仅在输入端对图像数据进行分割再降维处理,将图像变为序列,从而适配transformer。

ViT在大规模预训练条件下具有优于CNNs的图形处理能力(包括分类与检索、目标检测与分割、多模态与VLA、生成式视觉任务、自监督视觉表征学习等等任务),CNNs在边缘/超低算力场景、小数据集或低分辨率任务、高实时性要求等任务中仍较为重要。但是CNNs与ViT并不对立,而是在特定场景互相融合。

文献[1]是ViT的开山之作,它为VLA等相关研究奠定了基础。

其主要意义是突破了CNN之于图像处理的必要性:文章证明,ViT无需归纳偏置,即无需像CNN一样假设图像具有局部相关性、平移不变性,即可获得优于CNNs的图像分类能力。

其核心原理是将图像分割为固定大小的patch作为视觉token,并且直接在全局范围内建立所有patch之间的关系,无需局部卷积结构。

核心原理

ViT是在transformer的encoder输入端添加了对图像的特殊处理,其关键是将输入的2-D图像分割为若干大小相同的patch,然后将每个patch内的所有像素点及其通道变化为1-D向量,这个向量再经过一个线性变化就是transformer的一个token了。由此,就可以将一个图像,分割为若干token,这些token被称为 patch token。

此外,为了应对分类任务以及位置问题(在开山之作中),在输入的 pathc tokens 之前会加上 class token,并给所有token加上一个位置编码。这样得到的序列 z0z_0 就可以输入到 transformer encoder了,最后在encoder输出序列的0位就是整个图像的全局语义表征。

值得注意的是,在分类任务中,ViT仅有encoder,而没有decoder。这是因为图像分类是判别式任务,是提取特征并将其映射到固定类别标签,不需要生成内容。而像图生图、文生图这种任务就需要transformer的decoder或者encoder-decoder架构。这里给出encoder和decoder的功能介绍如下:

模块核心功能适用任务类型关键特性
Encoder输入序列→全局特征编码判别式任务(分类、检索)双向自注意力(全局交互)
Decoder特征→生成目标序列生成式任务(翻译、图像生成)单向自注意力(避免信息泄露)+ 交叉注意力(关联Encoder特征)

ViT 之数据流如下所示:

输入图像(224×224×3)→ 切分16×16 Patch(196个)→ 展平
+线性投影(196×768,Patch Token)→ 拼接Class Token(197×768)→ 加1D位置编码 
→ Transformer Encoder编码 → 取Class Token输出 → 分类头 → 类别概率

一句话总结:Vision Transformer 将图像表示为 patch 级 token 序列,通过全局自注意力机制直接建模长距离空间依赖关系。

关键问题

内容太多,单列出来,在 ViT关键问题

为什么 ViT

问题

ViT的研究背景是在NLP领域transformer成为主流,而在CV领域CNN仍占主导,并且行业普遍认为CNN的归纳偏置是视觉任务不可或缺的先验。此时的CV研究即使想引入transformer,也仅是将CNN与注意力机制粗糙结合

动机

其动机是将transformer引入CV领域。

设计选择

ViT的设计选择主要是为了极简适配、生态复用、规模化能力。

  • 极简适配:放弃复杂视觉专用设计,仅通过“分块+线性投影”将图像转化为序列;
  • 生态复用:100%对齐NLP原生Transformer架构(Encoder、Class Token、位置编码、Pre-LN),直接复用NLP优化工程;
  • 规模化能力:所有选择为“大规模预训练”服务——放弃CNN偏置,因大数据能替代人工先验;选择可学习编码、Pre-LN,支撑深层模型稳定训练。

局限与演进

原生ViT的局限包括:小数据集泛化能力弱、高分辨率场景计算成本爆炸、任务覆盖单一,仅支持图像分类、自监督预训练不成熟,依赖大规模有标注数据。

其主要向下面几个方向演进:优化计算效率、自监督预训练突破、从 “分类” 到 “全场景视觉任务”完成任务扩展。

此外,由于 ViT 与 NLP Transformer 的架构同源性,能够实现视觉、语言、动作的统一 token 化建模,研究人员还进行了跨模态与 VLA 融合相关方面的研究,

因此ViT的主要演进方向可以总结为弥补短板、放大优势:

  • 弥补短板:通过 “局部注意力(效率)、自监督(数据依赖)、Encoder-Decoder(任务适配)” 解决论文中的核心局限;
  • 放大优势:依托 “Transformer 统一架构、全局长距离建模、跨模态适配”,成为 VLA、多模态、生成式 AI 的核心骨架。

  1. Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020. ↩︎