Xiaohan Wang

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

CVPR 2025 1

Video Action Differencing

arXiv 2025

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

arXiv 2025

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

arXiv 2025

Temporal Preference Optimization for Long-Form Video Understanding

arXiv 2025

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

CVPR 2025 1

Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning

arXiv 2025

DeepSeek-V3 Technical Report

arXiv 2024

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

arXiv 2024

Why are Visually-Grounded Language Models Bad at Image Classification?

arXiv 2024

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

arXiv 2024

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?

arXiv 2023

Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models

arXiv 2023

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

arXiv 2023

Describing Differences in Image Sets with Natural Language

CVPR 2024 1

Bird's-Eye-View Scene Graph for Vision-Language Navigation

ICCV 2023 1

Clustering based Point Cloud Representation Learning for 3D Analysis

ICCV 2023 1

JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh Recovery

ICCV 2023 1

Whitening-based Contrastive Learning of Sentence Embeddings

arXiv 2023