Xipeng Qiu

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

arXiv 2026

World Action Models: The Next Frontier in Embodied AI

arXiv 2026

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

arXiv 2026

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

arXiv 2026

MOVA: Towards Scalable and Synchronized Video-Audio Generation

arXiv 2026

AI Can Learn Scientific Taste

arXiv 2026

CL-bench: A Benchmark for Context Learning

arXiv 2026

FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions

arXiv 2026

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

arXiv 2026

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

arXiv 2026

FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

arXiv 2026

Prism: Spectral-Aware Block-Sparse Attention

arXiv 2026

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

arXiv 2026

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

arXiv 2026

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

arXiv 2026

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

arXiv 2026

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

arXiv 2026

YuE: Scaling Open Foundation Models for Long-Form Music Generation

arXiv 2025

VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

arXiv 2025

Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

arXiv 2025

ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning

arXiv 2025

CritiQ: Mining Data Quality Criteria from Human Preferences

arXiv 2025

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

arXiv 2025

Thus Spake Long-Context Large Language Model

arXiv 2025

Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition

arXiv 2025

FastMCTS: A Simple Sampling Strategy for Data Synthesis

arXiv 2025

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

arXiv 2025

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

arXiv 2025

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

arXiv 2025

Multi-hop Reasoning via Early Knowledge Alignment

arXiv 2025

DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

arXiv 2025

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

arXiv 2025

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

arXiv 2025

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

arXiv 2025

Sparser Block-Sparse Attention via Token Permutation

arXiv 2025

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

arXiv 2025

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

arXiv 2025

InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems

arXiv 2025

Pre-Trained Policy Discriminators are General Reward Models

arXiv 2025

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

arXiv 2025

Safety at Scale: A Comprehensive Survey of Large Model Safety

arXiv 2025

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

arXiv 2025

Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs

arXiv 2025

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

arXiv 2025

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

arXiv 2025

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

arXiv 2024

Training-Free Long-Context Scaling of Large Language Models

arXiv 2024

BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments

arXiv 2024

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

arXiv 2024

LongWanjuan: Towards Systematic Measurement for Long Text Quality

arXiv 2024

ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection

arXiv 2024

Can Language Models Learn to Skip Steps?

arXiv 2024

Case2Code: Learning Inductive Reasoning with Synthetic Data

arXiv 2024

DenoSent: A Denoising Objective for Self-Supervised Sentence Representation Learning

arXiv 2024

Balanced Data Sampling for Language Model Training with Clustering

arXiv 2024

ReAttention: Training-Free Infinite Context with Finite Attention Scope

arXiv 2024

Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models

arXiv 2024

F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods

arXiv 2024

Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge

arXiv 2024

SpeechAlign: Aligning Speech Generation to Human Preferences

arXiv 2024

Secrets of RLHF in Large Language Models Part II: Reward Modeling

arXiv 2024

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

arXiv 2024

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond

arXiv 2024

Multi-Programming Language Sandbox for LLMs

arXiv 2024

Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders

arXiv 2024

Cross-Modality Safety Alignment

arXiv 2024

Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

arXiv 2024

Can AI Assistants Know What They Don't Know?

arXiv 2024

SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

arXiv 2024

MouSi: Poly-Visual-Expert Vision-Language Models

arXiv 2024

Character-LLM: A Trainable Agent for Role-Playing

arXiv 2023

CoLLiE: Collaborative Training of Large Language Models in an Efficient Way

arXiv 2023

A Survey of Reasoning with Foundation Models

arXiv 2023

Alignment for Honesty

arXiv 2023

Improving Contrastive Learning of Sentence Embeddings from AI Feedback

arXiv 2023

CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors

arXiv 2023

Unified Demonstration Retriever for In-Context Learning

arXiv 2023

Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration

arXiv 2023

From Hypergraph Energy Functions to Hypergraph Neural Networks

arXiv 2023

MoT: Memory-of-Thought Enables ChatGPT to Self-Improve

arXiv 2023

Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication

arXiv 2023

The Rise and Potential of Large Language Model Based Agents: A Survey

arXiv 2023

AdaLomo: Low-memory Optimization with Adaptive Learning Rate

arXiv 2023

EduChat: A Large-Scale Language Model-based Chatbot System for Intelligent Education

arXiv 2023

Evaluating the Performance of Large Language Models on GAOKAO Benchmark

arXiv 2023

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models

arXiv 2023

L-Eval: Instituting Standardized Evaluation for Long Context Language Models

arXiv 2023

Evaluating Hallucinations in Chinese Large Language Models

arXiv 2023

Do Large Language Models Know What They Don't Know?

arXiv 2023

SeqXGPT: Sentence-Level AI-Generated Text Detection

arXiv 2023

Scaling Laws of RoPE-based Extrapolation

arXiv 2023

Flames: Benchmarking Value Alignment of LLMs in Chinese

arXiv 2023