Weidong Cai

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

arXiv 2025

MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention

arXiv 2025

The Collapse of Patches

arXiv 2025

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

arXiv 2025

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images

arXiv 2024

Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights

arXiv 2024

RWKV-CLIP: A Robust Vision-Language Representation Learner

arXiv 2024

Gotta Hear Them All: Sound Source Aware Vision to Audio Generation

arXiv 2024

V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models

arXiv 2023

Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via Optimization Trajectory Distillation

ICCV 2023 1

PaRot: Patch-Wise Rotation-Invariant Network via Feature Disentanglement and Pose Restoration

arXiv 2023

CelebV-Text: A Large-Scale Facial Text-Video Dataset

CVPR 2023 1