Chaojun Xiao

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

arXiv 2026

Data Science and Technology Towards AGI Part I: Tiered Data Management

arXiv 2026

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

arXiv 2026

MiniCPM4: Ultra-Efficient LLMs on End Devices

arXiv 2025

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

arXiv 2025

NOSA: Native and Offloadable Sparse Attention

arXiv 2025

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

arXiv 2025

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

arXiv 2025

InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory

arXiv 2024

Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs

arXiv 2024

Robust and Scalable Model Editing for Large Language Models

arXiv 2024

Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices

arXiv 2024

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

arXiv 2024

Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

arXiv 2024

Tool Learning with Foundation Models

arXiv 2023

Plug-and-Play Knowledge Injection for Pre-trained Language Models

arXiv 2023

Plug-and-Play Document Modules for Pre-trained Models

arXiv 2023

MUSER: A Multi-View Similar Case Retrieval Dataset

arXiv 2023