05: ViViT: A Video Vision Transformer(ViViT)

Computer Vision

Transformer

ViViT: A Video Vision Transformer提出将 Vision Transformer 系统性扩展到视频建模，通过时空分解与高效注意力设计直接对视频序列进行建模，在视频分类等任务上取得强性能与良好可扩展性。