05: ViViT: A Video Vision Transformer(ViViT)

Computer Vision
Transformer
ViViT: A Video Vision Transformer提出将 Vision Transformer 系统性扩展到视频建模,通过时空分解高效注意力设计直接对视频序列进行建模,在视频分类等任务上取得强性能与良好可扩展性。
Author

Yuyang Zhang

1 Preliminary

2 ViViT

2.1 Experiment

3 Summary

4 Key Concepts

5 Q & A

Back to top