Changsheng Xu

SoMe: A Realistic Benchmark for LLM-based Social Media Agents

arXiv 2025

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

arXiv 2025

IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting

arXiv 2025

SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding

arXiv 2025

Towards Visual Grounding: A Survey

arXiv 2024

Libra: Building Decoupled Vision System on Large Language Models

arXiv 2024

OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling

arXiv 2024

HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding

arXiv 2024

CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion

arXiv 2024

GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

CVPR 2023 1

ProSpect: Prompt Spectrum for Attribute-Aware Personalization of Diffusion Models

arXiv 2023

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding

arXiv 2023

MotionCrafter: One-Shot Motion Customization of Diffusion Models

arXiv 2023