Hao Zhao

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

arXiv 2026

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

arXiv 2026

PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

arXiv 2026

Analytical Lyapunov Function Discovery: An RL-based Generative Approach

arXiv 2025

ORV: 4D Occupancy-centric Robot Video Generation

arXiv 2025

DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation

arXiv 2025

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

arXiv 2025

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

arXiv 2025

OmniNWM: Omniscient Driving Navigation World Models

arXiv 2025

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

arXiv 2025

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

arXiv 2025

Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers

arXiv 2025

UniScene: Unified Occupancy-centric Driving Scene Generation

CVPR 2025 1

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

CVPR 2024 1

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning

arXiv 2024

Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning

arXiv 2024

Spectrally Pruned Gaussian Fields with Neural Compensation

arXiv 2024

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

arXiv 2024

Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling

arXiv 2024

Reversible Decoupling Network for Single Image Reflection Removal

CVPR 2025 1

Diffusion-based Visual Anagram as Multi-task Learning

arXiv 2024

Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs

arXiv 2024

Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction

arXiv 2024

Is In-Context Learning Sufficient for Instruction Following in LLMs?

arXiv 2024

MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving

arXiv 2023

SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis

CVPR 2024 1

ECT: Fine-grained Edge Detection with Learned Cause Tokens

arXiv 2023

3D Implicit Transporter for Temporally Consistent Keypoint Discovery

ICCV 2023 1

SlimmeRF: Slimmable Radiance Fields

arXiv 2023

On Pitfalls of Test-Time Adaptation

arXiv 2023

DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection

ICCV 2023 1

NeRRF: 3D Reconstruction and View Synthesis for Transparent and Specular Objects with Neural Refractive-Reflective Fields

arXiv 2023

Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning

arXiv 2023