Xin Xu

SkillNet: Create, Evaluate, and Connect AI Skills

arXiv 2026

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

arXiv 2026

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

arXiv 2026

Progressive Residual Warmup for Language Model Pretraining

arXiv 2026

Safe: Enhancing Mathematical Reasoning in Large Language Models via Retrospective Step-aware Formal Verification

arXiv 2025

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

arXiv 2025

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

arXiv 2025

GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

arXiv 2025

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

arXiv 2025

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

arXiv 2025

Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning

arXiv 2025

Wan: Open and Advanced Large-Scale Video Generative Models

arXiv 2025

UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models

arXiv 2025

Skill Expansion and Composition in Parameter Space

arXiv 2025

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

arXiv 2025

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

arXiv 2025

UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models

arXiv 2025

When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

arXiv 2025

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

arXiv 2025

Improving In-Context Learning with Reasoning Distillation

arXiv 2025

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

arXiv 2024

Linear-Time Graph Neural Networks for Scalable Recommendations

arXiv 2024

RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization

arXiv 2024

Can We Verify Step by Step for Incorrect Answer Detection?

arXiv 2024

Can LLMs Solve longer Math Word Problems Better?

arXiv 2024

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?

arXiv 2023

RSFNet: A White-Box Image Retouching Approach using Region-Specific Color Filters

ICCV 2023 1

Schema-adaptable Knowledge Graph Construction

arXiv 2023

Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View

arXiv 2023