Fahad Shahbaz Khan

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

arXiv 2026

CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

arXiv 2026

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

arXiv 2026

Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

arXiv 2026

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

arXiv 2025

InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration

arXiv 2025

StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

arXiv 2025

DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

arXiv 2025

Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

arXiv 2025

Diversity Has Always Been There in Your Visual Autoregressive Models

arXiv 2025

A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

arXiv 2025

Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks

arXiv 2025

One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

arXiv 2025

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

arXiv 2025

Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model

arXiv 2025

AIN: The Arabic INclusive Large Multimodal Model

arXiv 2025

AirCast: Improving Air Pollution Forecasting Through Multi-Variable Data Alignment

arXiv 2025

Video-CoM: Interactive Video Reasoning via Chain of Manipulations

arXiv 2025

C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation

arXiv 2025

VideoMolmo: Spatio-Temporal Grounding Meets Pointing

arXiv 2025

AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

arXiv 2024

Frontiers in Intelligent Colonoscopy

arXiv 2024

UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

arXiv 2024

ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction

ICCV 2025

Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation

arXiv 2024

GroupMamba: Efficient Group-Based Visual State Space Model

CVPR 2025 1

Multi-Granularity Language-Guided Multi-Object Tracking

arXiv 2024

VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs

arXiv 2024

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

arXiv 2024

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

arXiv 2024

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

CVPR 2024 1

Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis

arXiv 2024

Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models

arXiv 2024

BiMediX: Bilingual Medical Mixture of Experts LLM

arXiv 2024

How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization?

arXiv 2024

DB-SAM: Delving into High Quality Universal Medical Image Segmentation

arXiv 2024

GeoChat: Grounded Large Vision-Language Model for Remote Sensing

CVPR 2024 1

SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications

ICCV 2023 1

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

arXiv 2023

Burstormer: Burst Image Restoration and Enhancement Transformer

CVPR 2023 1

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges

arXiv 2023

Modulate Your Spectrum in Self-Supervised Learning

arXiv 2023

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation

ICCV 2023 1

XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models

arXiv 2023

Foundational Models Defining a New Era in Vision: A Survey and Outlook

arXiv 2023

PromptIR: Prompting for All-in-One Blind Image Restoration

arXiv 2023

Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference

arXiv 2023

Self-regulating Prompts: Foundational Model Adaptation without Forgetting

ICCV 2023 1

Enhancing Novel Object Detection via Cooperative Foundational Models

arXiv 2023

StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing

arXiv 2023

Generative Multiplane Neural Radiance for 3D-Aware Image Generation

ICCV 2023 1