Chang Liu

NatureLM: Deciphering the Language of Nature for Scientific Discovery

arXiv 2025

FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

arXiv 2025

MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

arXiv 2025

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

arXiv 2025

Multimodal Referring Segmentation: A Survey

arXiv 2025

Mamba Integrated with Physics Principles Masters Long-term Chaotic System Forecasting

arXiv 2025

TARS: MinMax Token-Adaptive Preference Strategy for MLLM Hallucination Reduction

arXiv 2025

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

arXiv 2025

Advancing Video Self-Supervised Learning via Image Foundation Models

arXiv 2025

ScenePainter: Semantically Consistent Perpetual 3D Scene Generation with Concept Relation Alignment

ICCV 2025

De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks

arXiv 2025

Loomis Painter: Reconstructing the Painting Process

arXiv 2025

Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads

arXiv 2024

Assemblage: Automatic Binary Dataset Construction for Machine Learning

arXiv 2024

MatchTime: Towards Automatic Soccer Game Commentary Generation

arXiv 2024

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

arXiv 2024

GraCo: Granularity-Controllable Interactive Segmentation

CVPR 2024 1

EmoFace: Audio-driven Emotional 3D Face Animation

arXiv 2024

LLM-Empowered State Representation for Reinforcement Learning

arXiv 2024

Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation

arXiv 2024

Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning

arXiv 2024

UVMap-ID: A Controllable and Personalized UV Map Generative Model

arXiv 2024

Distributional Soft Actor-Critic with Three Refinements

arXiv 2023

Image as Set of Points

arXiv 2023

Towards Interactive Image Inpainting via Sketch Refinement

arXiv 2023

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

ICCV 2023 1

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

CVPR 2023 1

FreestyleRet: Retrieving Images from Style-Diversified Queries

arXiv 2023

LaCon: Late-Constraint Diffusion for Steerable Guided Image Synthesis

arXiv 2023

GRES: Generalized Referring Expression Segmentation

gres-generalized-referring-expression

A Systematic Review of Deep Learning-based Research on Radiology Report Generation

arXiv 2023

Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models

arXiv 2023

Frame Flexible Network

CVPR 2023 1

Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment

arXiv 2023

Watermarking Text Generated by Black-Box Language Models

arXiv 2023

Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning

arXiv 2023

UATVR: Uncertainty-Adaptive Text-Video Retrieval

ICCV 2023 1

Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis

arXiv 2023

MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

ICCV 2023 1