Yue Yang

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

arXiv 2026

Anisotropic Modality Align

arXiv 2026

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

arXiv 2026

Detecting RLVR Training Data via Structural Convergence of Reasoning

arXiv 2026

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

arXiv 2025

2025

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

arXiv 2025

2025

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

CVPR 2025 1

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

arXiv 2024

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

CVPR 2025 1

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects

arXiv 2024

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

CVPR 2024 1

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

arXiv 2024

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping

arXiv 2024

Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

arXiv 2024

Holodeck: Language Guided Generation of 3D Embodied AI Environments

CVPR 2024 1

I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors

arXiv 2023

Causal Reasoning of Entities and Events in Procedural Texts

arXiv 2023

Interpretable-by-Design Text Understanding with Iteratively Generated Concept Bottleneck

arXiv 2023

Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image Classification

CVPR 2023 1

Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data

ACL 2022 5

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer

ICCV 2023 1

Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination

arXiv 2022

Visualizing the Obvious: A Concreteness-based Ensemble Model for Noun Property Prediction

arXiv 2022