Zongyuan Ge

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

arXiv 2026

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

arXiv 2026

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

arXiv 2026

A General Model for Retinal Segmentation and Quantification

arXiv 2026

DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs

arXiv 2026

MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

arXiv 2026

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

arXiv 2025

MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment

arXiv 2025

Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model

arXiv 2025

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

arXiv 2025

MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation

arXiv 2025

Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology

ICCV 2025

OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining

ICCV 2025

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models

arXiv 2024

EventRPG: Event Data Augmentation with Relevance Propagation Guidance

arXiv 2024

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

arXiv 2024

Generalizing to Unseen Domains in Diabetic Retinopathy with Disentangled Representations

arXiv 2024