Zun Wang

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

arXiv 2026

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

arXiv 2026

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

arXiv 2026

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

arXiv 2026

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

arXiv 2025

Planning with Sketch-Guided Verification for Physics-Aware Video Generation

arXiv 2025

Error-Driven Scene Editing for 3D Grounding in Large Language Models

arXiv 2025

NatureLM: Deciphering the Language of Nature for Scientific Discovery

arXiv 2025

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

arXiv 2024

Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey

arXiv 2024

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

arXiv 2024

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

ICCV 2025

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

arXiv 2024