OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

OpenFlamingo, an open-source family of autoregressive vision-language models, replicates DeepMind's Flamingo performance across multiple datasets.

Open

Preview
Year: 2023
Venue: arXiv 2023
ArXiv: arxiv.org/abs/2308.01390
Authors: 16
Hosting: Abstract onlyARXIV-DEFAULT

Cite

Notes

Only stored in your browser.

Attribution

Abstract & full text: arxiv.org/abs/2308.01390v2ARXIV-DEFAULT
TL;DR: Semantic Scholar

Attribution policy →

Abstract

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

Authors

Jack Hessel Ludwig Schmidt Jenia Jitsev Pang Wei Koh Mitchell Wortsman Josh Gardner Simon Kornblith Gabriel Ilharco Yonatan Bitton Kalyani Marathe Shiori Sagawa Irena Gao Anas Awadalla Yusuf Hanafy Wanrong Zhu Samir Gadre