Xiawu Zheng

Motion-Aware Caching for Efficient Autoregressive Video Generation

arXiv 2026

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

arXiv 2026

A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

arXiv 2026

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

arXiv 2026

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

arXiv 2025

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

arXiv 2025

Solving the Catastrophic Forgetting Problem in Generalized Category Discovery

solving-the-catastrophic-forgetting-problem

Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective

arXiv 2025

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

arXiv 2025

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

arXiv 2025

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray

arXiv 2025

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

arXiv 2024

GraCo: Granularity-Controllable Interactive Segmentation

CVPR 2024 1

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

arXiv 2024

AffineQuant: Affine Transformation Quantization for Large Language Models

arXiv 2024

Multi-branch Collaborative Learning Network for 3D Visual Grounding

arXiv 2024

Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation

arXiv 2024