Hao Lu

Dynamic Pyramid Network for Efficient Multimodal Large Language Model

arXiv 2025

LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization

arXiv 2025

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

arXiv 2025

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

arXiv 2025

Hawk: Learning to Understand Open-World Video Anomalies

arXiv 2024

Backdoor Contrastive Learning via Bi-level Trigger Optimization

arXiv 2024

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning

arXiv 2024

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

arXiv 2024

Learning to Upsample by Learning to Sample

ICCV 2023 1

ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer

ICCV 2023 1

Point-Query Quadtree for Crowd Counting, Localization, and More

ICCV 2023 1

Fast Full-frame Video Stabilization with Iterative Optimization

ICCV 2023 1