Zhe Gan

Improve Vision Language Model Chain-of-thought Reasoning

arXiv 2024

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

arXiv 2024

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

arXiv 2024

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

arXiv 2024

Ferret: Refer and Ground Anything Anywhere at Any Granularity

arXiv 2023

Guiding Instruction-based Image Editing via Multimodal Large Language Models

arXiv 2023

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

arXiv 2023

MOFI: Learning Image Representations from Noisy Entity Annotated Images

arXiv 2023

Compressing LLMs: The Truth is Rarely Pure and Never Simple

arXiv 2023

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

arXiv 2023

VeCLIP: Improving CLIP Training via Visual-enriched Captions

arXiv 2023

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?

arXiv 2023

NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis

arXiv 2022

Generalized Decoding for Pixel, Image, and Language

CVPR 2023 1

LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling

CVPR 2023 1

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling

CVPR 2023 1

GRiT: A Generative Region-to-text Transformer for Object Understanding

arXiv 2022

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

coarse-to-fine-vision-language-pre-training-1

Exploring Discrete Diffusion Models for Image Captioning

arXiv 2022

GIT: A Generative Image-to-text Transformer for Vision and Language

arXiv 2022

SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning

CVPR 2022 1

2021

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

arXiv 2021

2021

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

arXiv 2021

2021

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

EMNLP 2020 11

VIOLIN: A Large-Scale Dataset for Video-and-Language Inference

violin-a-large-scale-dataset-for-video-and-1

Graph Optimal Transport for Cross-Domain Alignment

ICML 2020 1

POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training

EMNLP 2020 11