Yankai Lin

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

arXiv 2026

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

arXiv 2026

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

arXiv 2026

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

arXiv 2026

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

arXiv 2026

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

arXiv 2026

AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning

arXiv 2025

MiniCPM4: Ultra-Efficient LLMs on End Devices

arXiv 2025

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

arXiv 2025

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

arXiv 2025

DeepCritic: Deliberate Critique with Large Language Models

arXiv 2025

Beyond the Surface: Measuring Self-Preference in LLM Judgments

arXiv 2025

RepoAgent: An LLM-Powered Open-Source Framework for Repository-level Code Documentation Generation

arXiv 2024

Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

arXiv 2024

Towards Effective and Efficient Continual Pre-training of Large Language Models

arXiv 2024

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

arXiv 2024

Advancing LLM Reasoning Generalists with Preference Trees

arXiv 2024

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

arXiv 2024

GUICourse: From General Vision Language Models to Versatile GUI Agents

arXiv 2024

Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents

arXiv 2024

Large Language Model-based Human-Agent Collaboration for Complex Task Solving

arXiv 2024

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment

arXiv 2024

Exploring Backdoor Vulnerabilities of Chat Models

arXiv 2024

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

arXiv 2024

Learning Evolving Tools for Large Language Models

arXiv 2024

USimAgent: Large Language Models for Simulating Search Users

arXiv 2024

YuLan: An Open-source Large Language Model

arXiv 2024

InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory

arXiv 2024

DebugBench: Evaluating Debugging Capability of Large Language Models

arXiv 2024

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

arXiv 2023

A Survey on Large Language Model based Autonomous Agents

arXiv 2023

User Behavior Simulation with Large Language Model based Agents

arXiv 2023

Tool Learning with Foundation Models

arXiv 2023

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

arXiv 2023

Plug-and-Play Knowledge Injection for Pre-trained Language Models

arXiv 2023

Plug-and-Play Document Modules for Pre-trained Models

arXiv 2023

Distilling Rule-based Knowledge into Large Language Models

arXiv 2023

ProAgent: From Robotic Process Automation to Agentic Process Automation

arXiv 2023

UltraFeedback: Boosting Language Models with High-quality Feedback

ICML

Towards Codable Watermarking for Injecting Multi-bits Information to LLMs

arXiv 2023

Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub

arXiv 2023

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

arXiv 2023

Exploring the Impact of Model Scaling on Parameter-Efficient Tuning

arXiv 2023

Packed Levitated Marker for Entity and Relation Extraction

ACL 2022 5

MoEfication: Transformer Feed-forward Layers are Mixtures of Experts

Findings (ACL) 2022 5

RAP: Robustness-Aware Perturbations for Defending against Backdoor Attacks on NLP Models

EMNLP 2021 11

Fully Hyperbolic Neural Networks

ACL 2022 5