Xiaodong Cun

VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning

arXiv 2025

GenCompositor: Generative Video Compositing with Diffusion Transformer

arXiv 2025

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

arXiv 2025

SKEL-CF: Coarse-to-Fine Biomechanical Skeleton and Surface Mesh Recovery

arXiv 2025

GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

arXiv 2025

PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

arXiv 2025

Mobius: Text to Seamless Looping Video Generation via Latent Shift

arXiv 2025

Sci-Fi: Symmetric Constraint for Frame Inbetweening

arXiv 2025

FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

arXiv 2025

StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

arXiv 2024

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

CVPR 2024 1

AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

arXiv 2024

CV-VAE: A Compatible Video VAE for Latent Generative Video Models

arXiv 2024

DEIM: DETR with Improved Matching for Fast Convergence

CVPR 2025 1

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

arXiv 2024

CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

arXiv 2024

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

CVPR 2025 1

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

CVPR 2025 1

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

arXiv 2024

ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation

arXiv 2024

Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

arXiv 2024

T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations

arXiv 2023

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

ICCV 2023 1

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

arXiv 2023

MagicStick: Controllable Video Editing via Control Handle Transformations

arXiv 2023

Inserting Anybody in Diffusion Models via Celeb Basis

inserting-anybody-in-diffusion-models-via

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

CVPR 2024 1

DPE: Disentanglement of Pose and Expression for General Video Portrait Editing

CVPR 2023 1

Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos

arXiv 2023

AnimateZero: Video Diffusion Models are Zero-Shot Image Animators

arXiv 2023

TaleCrafter: Interactive Story Visualization with Multiple Characters

arXiv 2023

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

arXiv 2023

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation

ICCV 2023 1