Zhengyuan Yang

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

arXiv 2026

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

arXiv 2026

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

arXiv 2026

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

arXiv 2025

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

arXiv 2025

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

arXiv 2025

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

arXiv 2025

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

arXiv 2025

Glance: Accelerating Diffusion Models with 1 Sample

arXiv 2025

Computer-Use Agents as Judges for Generative User Interface

arXiv 2025

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

arXiv 2025

V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models

arXiv 2025

Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation

arXiv 2024

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

arXiv 2024

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

ICCV 2025

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

CVPR 2025 1

Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering

arXiv 2024

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

arXiv 2024

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

arXiv 2024

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

arXiv 2024

MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

arXiv 2023

Interfacing Foundation Models' Embeddings

arXiv 2023

Equivariant Similarity for Vision-Language Foundation Models

ICCV 2023 1

GPT-4V(ision) as A Social Media Analysis Engine

arXiv 2023

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

CVPR 2024 1

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

arXiv 2023

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

arXiv 2023

DisCo: Disentangled Control for Realistic Human Dance Generation

CVPR 2024 1

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

arXiv 2023

DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

arXiv 2023