Question 1

What is MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models?

Accepted Answer

A comprehensive dataset designed to evaluate Large Vision-Language Models (LVLMs) across a wide range of multi-image tasks. The dataset encompasses 7 types of multi-image relationships, 52 tasks, 77K images, and 11K meticulously curated multiple-choice questions.

Question 2

What license is MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models under?

Accepted Answer

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models is available under mit.

FAQ