Xiang Wang

Multi-agent Architecture Search via Agentic Supernet

arXiv 2025

UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer

arXiv 2025

AnyEdit: Edit Any Knowledge Encoded in Language Models

arXiv 2025

An Empirical Study on Prompt Compression for Large Language Models

arXiv 2025

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

arXiv 2025

NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

arXiv 2025

Language-Enhanced Representation Learning for Single-Cell Transcriptomics

arXiv 2025

Robust Preference Optimization via Dynamic Target Margins

arXiv 2025

Multi-Grained Patch Training for Efficient LLM-based Recommendation

arXiv 2025

START: Self-taught Reasoner with Tools

arXiv 2025

Quantile Advantage Estimation for Entropy-Safe Reasoning

arXiv 2025

LIMI: Less is More for Agency

arXiv 2025

CoRT: Code-integrated Reasoning within Thinking

arXiv 2025

RePO: ReLU-based Preference Optimization

arXiv 2025

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

arXiv 2025

AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models

arXiv 2024

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

arXiv 2024

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

ICCV 2025

Language Representations Can be What Recommenders Need: Findings and Potentials

arXiv 2024

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

arXiv 2024

Hello Again! LLM-powered Personalized Agent for Long-term Dialogue

arXiv 2024

Towards 3D Molecule-Text Interpretation in Language Models

arXiv 2024

ReactXT: Understanding Molecular "Reaction-ship" via Reaction-Contextualized Molecule-Text Pretraining

arXiv 2024

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization

arXiv 2024

PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency

arXiv 2024

$β$-DPO: Direct Preference Optimization with Dynamic $β$

arXiv 2024

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

arXiv 2024

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning

arXiv 2024

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

arXiv 2023

DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models

arXiv 2023

MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning

arXiv 2023

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

arXiv 2023

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

ICCV 2023 1

Leveraging Multimodal Features and Item-level User Feedback for Bundle Construction

arXiv 2023

Discovering Spatio-Temporal Rationales for Video Question Answering

ICCV 2023 1

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

CVPR 2024 1

ModelScope Text-to-Video Technical Report

arXiv 2023