ViT

约 1609 字大约 5 分钟

2026-03-03

ViT

ViT, vision transformer，是用于视觉任务的transformer。它不是将CNN与注意力机制粗糙地结合在一起，而是几乎完全保留了transformer的架构，仅在输入端对图像数据进行分割再降维处理，将图像变为序列，从而适配transformer。

ViT在大规模预训练条件下具有优于CNNs的图形处理能力（包括分类与检索、目标检测与分割、多模态与VLA、生成式视觉任务、自监督视觉表征学习等等任务），CNNs在边缘/超低算力场景、小数据集或低分辨率任务、高实时性要求等任务中仍较为重要。但是CNNs与ViT并不对立，而是在特定场景互相融合。

文献^[1]是ViT的开山之作，它为VLA等相关研究奠定了基础。

其主要意义是突破了CNN之于图像处理的必要性：文章证明，ViT无需归纳偏置，即无需像CNN一样假设图像具有局部相关性、平移不变性，即可获得优于CNNs的图像分类能力。

其核心原理是将图像分割为固定大小的patch作为视觉token，并且直接在全局范围内建立所有patch之间的关系，无需局部卷积结构。

核心原理

ViT是在transformer的encoder输入端添加了对图像的特殊处理，其关键是将输入的2-D图像分割为若干大小相同的patch，然后将每个patch内的所有像素点及其通道变化为1-D向量，这个向量再经过一个线性变化就是transformer的一个token了。由此，就可以将一个图像，分割为若干token，这些token被称为 patch token。

此外，为了应对分类任务以及位置问题（在开山之作中），在输入的 pathc tokens 之前会加上 class token，并给所有token加上一个位置编码。这样得到的序列 $z_0$ 就可以输入到 transformer encoder了，最后在encoder输出序列的0位就是整个图像的全局语义表征。

值得注意的是，在分类任务中，ViT仅有encoder，而没有decoder。这是因为图像分类是判别式任务，是提取特征并将其映射到固定类别标签，不需要生成内容。而像图生图、文生图这种任务就需要transformer的decoder或者encoder-decoder架构。这里给出encoder和decoder的功能介绍如下：

模块	核心功能	适用任务类型	关键特性
Encoder	输入序列→全局特征编码	判别式任务（分类、检索）	双向自注意力（全局交互）
Decoder	特征→生成目标序列	生成式任务（翻译、图像生成）	单向自注意力（避免信息泄露）+ 交叉注意力（关联Encoder特征）

ViT 之数据流如下所示：

输入图像（224×224×3）→ 切分16×16 Patch（196个）→ 展平
+线性投影（196×768，Patch Token）→ 拼接Class Token（197×768）→ 加1D位置编码 
→ Transformer Encoder编码 → 取Class Token输出 → 分类头 → 类别概率

一句话总结：Vision Transformer 将图像表示为 patch 级 token 序列，通过全局自注意力机制直接建模长距离空间依赖关系。

极简适配：放弃复杂视觉专用设计，仅通过“分块+线性投影”将图像转化为序列；
生态复用：100%对齐NLP原生Transformer架构（Encoder、Class Token、位置编码、Pre-LN），直接复用NLP优化工程；
规模化能力：所有选择为“大规模预训练”服务——放弃CNN偏置，因大数据能替代人工先验；选择可学习编码、Pre-LN，支撑深层模型稳定训练。

局限与演进

原生ViT的局限包括：小数据集泛化能力弱、高分辨率场景计算成本爆炸、任务覆盖单一，仅支持图像分类、自监督预训练不成熟，依赖大规模有标注数据。

其主要向下面几个方向演进：优化计算效率、自监督预训练突破、从 “分类” 到 “全场景视觉任务”完成任务扩展。

此外，由于 ViT 与 NLP Transformer 的架构同源性，能够实现视觉、语言、动作的统一 token 化建模，研究人员还进行了跨模态与 VLA 融合相关方面的研究，

因此ViT的主要演进方向可以总结为弥补短板、放大优势：

弥补短板：通过 “局部注意力（效率）、自监督（数据依赖）、Encoder-Decoder（任务适配）” 解决论文中的核心局限；
放大优势：依托 “Transformer 统一架构、全局长距离建模、跨模态适配”，成为 VLA、多模态、生成式 AI 的核心骨架。

Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020. ↩︎

版权所有

版权归属：Duangce

许可证：署名 4.0 国际 (CC-BY-4.0)

ViT

ViT

核心原理

关键问题

为什么 ViT

问题

动机

设计选择

局限与演进

版权所有