WangMeng Zuo

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

arXiv 2025

PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

arXiv 2025

FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

ICCV 2025

ACE: Anti-Editing Concept Erasure in Text-to-Image Models

CVPR 2025 1

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

ICCV 2025

Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process

arXiv 2025

A Comprehensive Survey on 3D Content Generation

arXiv 2024

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

arXiv 2024

MV-VTON: Multi-View Virtual Try-On with Diffusion Models

arXiv 2024

Diffusion Models in Low-Level Vision: A Survey

arXiv 2024

Evaluation of Text-to-Video Generation Models: A Dynamics Perspective

arXiv 2024

DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors

arXiv 2024

Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors

arXiv 2024

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

arXiv 2024

Multi-modal Crowd Counting via a Broker Modality

arXiv 2024

MasterWeaver: Taming Editability and Face Identity for Personalized Text-to-Image Generation

arXiv 2024

Generative Inbetweening through Frame-wise Conditions-Driven Video Generation

CVPR 2025 1

SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions

arXiv 2024

Beyond Image Borders: Learning Feature Extrapolation for Unbounded Image Composition

ICCV 2023 1

Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models

arXiv 2023

Sentence-level Prompts Benefit Composed Image Retrieval

arXiv 2023

ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation

ICCV 2023 1

ControlVideo: Training-free Controllable Text-to-Video Generation

arXiv 2023

Improving Image Restoration through Removing Degradations in Textual Representations

CVPR 2024 1

Self-supervised Learning to Bring Dual Reversed Rolling Shutter Images Alive

ICCV 2023 1

Towards Instance-adaptive Inference for Federated Learning

ICCV 2023 1

Self-Supervised High Dynamic Range Imaging with Multi-Exposure Images in Dynamic Scenes

arXiv 2023

Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning

ICCV 2023 1

MetaF2N: Blind Image Super-Resolution by Learning Efficient Model Adaptation from Faces

ICCV 2023 1

Decoupled Textual Embeddings for Customized Image Generation

arXiv 2023

HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping

arXiv 2022

CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training

ICCV 2023 1

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

arXiv 2022

Texts as Images in Prompt Tuning for Multi-Label Image Recognition

CVPR 2023 1