Dingkang Liang

Towards Generalizable Robotic Manipulation in Dynamic Environments

arXiv 2026

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

arXiv 2026

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

arXiv 2026

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

arXiv 2026

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

arXiv 2026

HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

ICCV 2025

Seeing the Future, Perceiving the Future: A Unified Driving World Model for Future Generation and Perception

arXiv 2025

Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving

arXiv 2025

SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text Spotting

semiets-integrating-spatial-and-content

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

arXiv 2025

MINIMA: Modality Invariant Image Matching

CVPR 2025 1

Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning

arXiv 2024

Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression

arXiv 2024

Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid

arXiv 2024