Chang Xu

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

ICCV 2025

GridRoute: A Benchmark for LLM-Based Route Planning with Cardinal Movement in Grid Environments

arXiv 2025

Spatia: Video Generation with Updatable Spatial Memory

arXiv 2025

SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images

ICCV 2025

MarS: a Financial Market Simulation Engine Powered by Generative Foundation Model

arXiv 2024

LocalMamba: Visual State Space Model with Windowed Selective Scan

arXiv 2024

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba

arXiv 2024

VSSD: Vision Mamba with Non-Causal State Space Duality

ICCV 2025

Data-efficient Large Vision Models through Sequential Autoregression

arXiv 2024

Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation

ICCV 2025

Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model

arXiv 2024

Training-free Composite Scene Generation for Layout-to-Image Synthesis

arXiv 2024

InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models

arXiv 2024

JavaBench: A Benchmark of Object-Oriented Code Generation for Evaluating Large Language Models

arXiv 2024

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

arXiv 2024

Can GPT-4 Perform Neural Architecture Search?

arXiv 2023

What Can Simple Arithmetic Operations Do for Temporal Modeling?

ICCV 2023 1

Neural Architecture Retrieval

arXiv 2023

Dual Focal Loss for Calibration

arXiv 2023

Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models

detecting-any-human-object-interaction

SimMatchV2: Semi-Supervised Learning with Graph Consistency

ICCV 2023 1