Ya zhang

Multi-Agent System for Comprehensive Soccer Understanding

arXiv 2025

ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

arXiv 2025

SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding

arXiv 2025

Evolving Diagnostic Agents in a Virtual Clinical Environment

arXiv 2025

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

arXiv 2025

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

arXiv 2025

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

arXiv 2025

Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach

arXiv 2025

MedS$^3$: Towards Medical Small Language Models with Self-Evolved Slow Thinking

arXiv 2025

One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution

arXiv 2025

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

arXiv 2025

A Knowledge-enhanced Pathology Vision-language Foundation Model for Cancer Diagnosis

arXiv 2024

Communication Learning in Multi-Agent Systems from Graph Modeling Perspective

arXiv 2024

RaTEScore: A Metric for Radiology Report Generation

arXiv 2024

Towards Universal Soccer Video Understanding

CVPR 2025 1

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

arXiv 2024

Towards Building Multilingual Language Model for Medicine

arXiv 2024

Towards Evaluating and Building Versatile Large Language Models for Medicine

arXiv 2024

ReMamber: Referring Image Segmentation with Mamba Twister

arXiv 2024

MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities

ICCV 2025

Low-Rank Knowledge Decomposition for Medical Foundation Models

CVPR 2024 1

HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning

arXiv 2024

CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios

arXiv 2024

Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data

arXiv 2023

PMC-LLaMA: Towards Building Open-source Language Models for Medicine

arXiv 2023

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents

arXiv 2023

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

arXiv 2023

One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

arXiv 2023

DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration

CVPR 2023 1

AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation

open-vocabulary-semantic-segmentation-via

Zero-shot Composed Text-Image Retrieval

arXiv 2023

Joint-Relation Transformer for Multi-Person Motion Prediction

ICCV 2023 1

Boost Video Frame Interpolation via Motion Adaptation

arXiv 2023