Hanwang Zhang

VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

arXiv 2025

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

arXiv 2025

On Path to Multimodal Generalist: General-Level and General-Bench

arXiv 2025

DEPO: Dual-Efficiency Preference Optimization for LLM Agents

arXiv 2025

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

arXiv 2024

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

arXiv 2024

Exploring Diffusion Time-steps for Unsupervised Representation Learning

arXiv 2024

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

CVPR 2024 1

Towards Semantic Equivalence of Tokenization in Multimodal LLM

arXiv 2024

ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models

arXiv 2024

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

arXiv 2024

MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

arXiv 2024

HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing

arXiv 2024

DisCo: Disentangled Control for Realistic Human Dance Generation

CVPR 2024 1

Fast Diffusion Model

arXiv 2023

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions

arXiv 2023

Equivariant Similarity for Vision-Language Foundation Models

ICCV 2023 1

Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video Relation Detection

arXiv 2023