Hang Yan

MUR: Momentum Uncertainty guided Reasoning for Large Language Models

arXiv 2025

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

arXiv 2025

Diffusion Language Models are Super Data Learners

arXiv 2025

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

arXiv 2025

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

arXiv 2025

EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models

arXiv 2024

Length Generalization of Causal Transformers without Position Encoding

arXiv 2024

Secrets of RLHF in Large Language Models Part II: Reward Modeling

arXiv 2024

AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data

arXiv 2024

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

arXiv 2024

Balanced Data Sampling for Language Model Training with Clustering

arXiv 2024

MouSi: Poly-Visual-Expert Vision-Language Models

arXiv 2024

What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices

arXiv 2024

LongWanjuan: Towards Systematic Measurement for Long Text Quality

arXiv 2024

Case2Code: Learning Inductive Reasoning with Synthetic Data

arXiv 2024

ReAttention: Training-Free Infinite Context with Finite Attention Scope

arXiv 2024

F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods

arXiv 2024

Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge

arXiv 2024

CoLLiE: Collaborative Training of Large Language Models in an Efficient Way

arXiv 2023

AdaLomo: Low-memory Optimization with Adaptive Learning Rate

arXiv 2023

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models

arXiv 2023

Scaling Laws of RoPE-based Extrapolation

arXiv 2023

CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors

arXiv 2023

Unified Demonstration Retriever for In-Context Learning

arXiv 2023