Bin Li

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

arXiv 2025

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

arXiv 2025

UMIT: Unifying Medical Imaging Tasks via Vision-Language Models

arXiv 2025

When Large Multimodal Models Confront Evolving Knowledge:Challenges and Pathways

arXiv 2025

Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models

arXiv 2025

AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference

arXiv 2025

Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs

arXiv 2025

Neural Video Compression with Feature Modulation

CVPR 2024 1

GM-DF: Generalized Multi-Scenario Deepfake Detection

arXiv 2024

Accelerating Data Generation for Neural Operators via Krylov Subspace Recycling

arXiv 2024

An Efficient Watermarking Method for Latent Diffusion Models via Low-Rank Adaptation

arXiv 2024

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

arXiv 2024

Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory

arXiv 2023

Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks

arXiv 2023

Efficient Backdoor Attacks for Deep Neural Networks in Real-world Scenarios

arXiv 2023

Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning

ICCV 2023 1