Yu Tian

Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

arXiv 2026

PRBench: End-to-end Paper Reproduction in Physics Research

arXiv 2026

WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing

arXiv 2026

From Questions to Clinical Recommendations: Large Language Models Driving Evidence-Based Clinical Decision Making

arXiv 2025

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

arXiv 2025

Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

arXiv 2025

AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

arXiv 2026

PairUni: Pairwise Training for Unified Multimodal Language Models

arXiv 2025

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

arXiv 2025

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

arXiv 2025

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

arXiv 2025

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

arXiv 2024

2024

FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling

arXiv 2023

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection

arXiv 2023

Evil Geniuses: Delving into the Safety of LLM-based Agents

arXiv 2023

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

CVPR 2023 1

UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework

arXiv 2023

Learning Support and Trivial Prototypes for Interpretable Image Classification

ICCV 2023 1

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?

ICCV 2023 1

Residual Pattern Learning for Pixel-wise Out-of-Distribution Detection in Semantic Segmentation

ICCV 2023 1

Translation Consistent Semi-supervised Segmentation for 3D Medical Images

arXiv 2022

BoMD: Bag of Multi-label Descriptors for Noisy Chest X-ray Classification

ICCV 2023 1

Unsupervised Anomaly Detection in Medical Images with a Memory-augmented Multi-level Cross-attentional Masked Autoencoder

arXiv 2022