Qian He

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

arXiv 2026

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

arXiv 2026

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

arXiv 2026

OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

arXiv 2026

DreamStyle: A Unified Framework for Video Stylization

arXiv 2026

Phantom: Subject-consistent video generation via cross-modal alignment

ICCV 2025

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

ICCV 2025

DreamO: A Unified Framework for Image Customization

arXiv 2025

DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning

arXiv 2025

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

arXiv 2025

HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

arXiv 2025

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

arXiv 2025

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

arXiv 2025

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

arXiv 2025

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

arXiv 2025

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

arXiv 2025

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

CVPR 2025 1

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

CVPR 2025 1

PuLID: Pure and Lightning ID Customization via Contrastive Alignment

arXiv 2024

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

CVPR 2024 1

Deep Generative Models-Assisted Automated Labeling for Electron Microscopy Images Segmentation

arXiv 2024

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

arXiv 2024

DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

CVPR 2024 1

RealCustom++: Representing Images as Real-Word for Real-Time Customization

arXiv 2024