Vision Transformer (ViT) Replication

This repository contains code for replicating the Vision Transformer (ViT) model proposed in the paper "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" by Dosovitskiy et al.

References

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
model.py		model.py
train.py		train.py
vit-architecture.png		vit-architecture.png