Ziqiao Ma

AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies

arXiv 2025

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

arXiv 2025

Vision-Language Models Mistake Head Orientation for Gaze Direction: Nonverbal Conversation Cues

arXiv 2025

DeliveryBench: Can Agents Earn Profit in Real World?

arXiv 2025

Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation

arXiv 2025

Next-Embedding Prediction Makes Strong Vision Learners

arXiv 2025

Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding Tutors

arXiv 2025

DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences

arXiv 2024

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

arXiv 2024

Multi-Object Hallucination in Vision-Language Models

arXiv 2024

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

arXiv 2024

World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

arXiv 2023

Towards Collaborative Plan Acquisition through Theory of Mind Modeling in Situated Dialogue

arXiv 2023

CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for Image Manipulation

cyclenet-rethinking-cycle-consistency-in-text

Inversion-Free Image Editing with Natural Language

arXiv 2023