YuAn Liu

Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

arXiv 2026

UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

arXiv 2026

POINTS-GUI-G: GUI-Grounding Journey

arXiv 2026

AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

arXiv 2026

HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images

arXiv 2026

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

arXiv 2026

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

arXiv 2025

MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

arXiv 2025

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

arXiv 2025

Epona: Autoregressive Diffusion World Model for Autonomous Driving

ICCV 2025

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

arXiv 2025

Reconstructing 4D Spatial Intelligence: A Survey

arXiv 2025

MOSPA: Human Motion Generation Driven by Spatial Audio

arXiv 2025

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

arXiv 2025

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

arXiv 2025

SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence

arXiv 2025

POINTS1.5: Building a Vision-Language Model towards Real World Applications

arXiv 2024

GECO: Generative Image-to-3D within a SECOnd

arXiv 2024

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

arXiv 2024

Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion

arXiv 2024

Improving Pixel-based MIM by Reducing Wasted Modeling Capability

ICCV 2023 1

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image

arXiv 2023

EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation

arXiv 2023

F$^{2}$-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories

arXiv 2023

FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators

arXiv 2023

Robust Multiview Point Cloud Registration with Reliable Pose Graph Initialization and History Reweighting

CVPR 2023 1

Single-shot Quantum Signal Processing Interferometry

arXiv 2023

Bootstrap Embedding on a Quantum Computer

arXiv 2023