Tao Wang

MaterialMVP: Illumination-Invariant Material Generation via Multi-view PBR Diffusion

ICCV 2025

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

arXiv 2025

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

arXiv 2025

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

arXiv 2025

ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection

arXiv 2025

ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation

arXiv 2025

Pseudo-Knowledge Graph: Meta-Path Guided Retrieval and In-Graph Text for RAG-Equipped LLM

arXiv 2025

OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models

arXiv 2024

GroundingGPT:Language Enhanced Multi-modal Grounding Model

arXiv 2024

Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration

arXiv 2024

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

arXiv 2024

WMCodec: End-to-End Neural Speech Codec with Deep Watermarking for Authenticity Verification

arXiv 2024

Student Classroom Behavior Detection based on YOLOv7-BRA and Multi-Model Fusion

arXiv 2023

An Intelligent Remote Sensing Image Quality Inspection System

arXiv 2023

Valley: Video Assistant with Large Language model Enhanced abilitY

arXiv 2023

Towards Real-World Blind Face Restoration with Generative Diffusion Prior

arXiv 2023

Fewer-token Neural Speech Codec with Time-invariant Codes

arXiv 2023

GridFormer: Residual Dense Transformer with Grid Structure for Image Restoration in Adverse Weather Conditions

arXiv 2023