Shijian Lu

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

arXiv 2025

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

arXiv 2025

PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency

ICCV 2025

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

arXiv 2025

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

arXiv 2024

Novel View Extrapolation with Video Diffusion Priors

arXiv 2024

CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model

arXiv 2024

Segment Anything with Multiple Modalities

arXiv 2024

MMRel: A Relation Understanding Benchmark in the MLLM Era

arXiv 2024

Mitigating Object Hallucination via Concentric Causal Attention

arXiv 2024

Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence Mining

CVPR 2024 1

AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

arXiv 2024

Vision-Language Models for Vision Tasks: A Survey

arXiv 2023

AI-Generated Images as Data Source: The Dawn of Synthetic Era

arXiv 2023

StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields

CVPR 2023 1

Weakly Supervised 3D Open-vocabulary Segmentation

weakly-supervised-3d-open-vocabulary

3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds

CVPR 2023 1

Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation

rewrite-caption-semantics-bridging-semantic

Black-box Unsupervised Domain Adaptation with Bi-directional Atkinson-Shiffrin Memory

ICCV 2023 1