Zhiyuan Liu

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

arXiv 2026

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models

arXiv 2026

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

arXiv 2026

Data Science and Technology Towards AGI Part I: Tiered Data Management

arXiv 2026

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

arXiv 2026

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

arXiv 2026

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

arXiv 2026

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

arXiv 2026

AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs

arXiv 2025

AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning

arXiv 2025

MiniCPM4: Ultra-Efficient LLMs on End Devices

arXiv 2025

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

arXiv 2025

Process Reinforcement through Implicit Rewards

arXiv 2025

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

arXiv 2025

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

arXiv 2025

Craw4LLM: Efficient Web Crawling for LLM Pretraining

arXiv 2025

Diffusion Models for Molecules: A Survey of Methods and Tasks

arXiv 2025

NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

arXiv 2025

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

arXiv 2025

AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage

arXiv 2025

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

arXiv 2025

A Survey of Reinforcement Learning for Large Reasoning Models

arXiv 2025

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

arXiv 2025

From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

arXiv 2025

RLPR: Extrapolating RLVR to General Domains without Verifiers

arXiv 2025

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

arXiv 2025

StateX: Enhancing RNN Recall via Post-training State Expansion

arXiv 2025

PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

arXiv 2025

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

arXiv 2025

LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources

arXiv 2025

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

arXiv 2025

Cost-Optimal Grouped-Query Attention for Long-Context Modeling

arXiv 2025

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

arXiv 2025

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

arXiv 2025

ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation

arXiv 2025

ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation

arXiv 2025

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

arXiv 2025

Language-Enhanced Representation Learning for Single-Cell Transcriptomics

arXiv 2025

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

arXiv 2025

NOSA: Native and Offloadable Sparse Attention

arXiv 2025

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

CVPR 2025 1

RepoAgent: An LLM-Powered Open-Source Framework for Repository-level Code Documentation Generation

arXiv 2024

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

arXiv 2024

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

arXiv 2024

$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens

arXiv 2024

UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset

arXiv 2024

Scaling Efficient Masked Image Modeling on Large Remote Sensing Dataset

ICCV 2025

Yi: Open Foundation Models by 01.AI

arXiv 2024

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

arXiv 2024

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

arXiv 2024

InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory

arXiv 2024

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

arXiv 2024

Advancing LLM Reasoning Generalists with Preference Trees

arXiv 2024

UltraMedical: Building Specialized Generalists in Biomedicine

arXiv 2024

Cleaner Pretraining Corpus Curation with Neural Web Scraping

arXiv 2024

OneBit: Towards Extremely Low-bit Large Language Models

arXiv 2024

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

arXiv 2024

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

arXiv 2024

Robust and Scalable Model Editing for Large Language Models

arXiv 2024

Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices

arXiv 2024

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

arXiv 2024

Free Process Rewards without Process Labels

arXiv 2024

GUICourse: From General Vision Language Models to Versatile GUI Agents

arXiv 2024

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

arXiv 2024

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization

arXiv 2024

DebugBench: Evaluating Debugging Capability of Large Language Models

arXiv 2024

Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents

arXiv 2024

Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

arXiv 2024

Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation

arXiv 2024

Towards 3D Molecule-Text Interpretation in Language Models

arXiv 2024

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

arXiv 2024

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

arXiv 2024

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

arXiv 2024

Large Language Model-based Human-Agent Collaboration for Complex Task Solving

arXiv 2024

Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models

arXiv 2024

PRESTO: Progressive Pretraining Enhances Synthetic Chemistry Outcomes

arXiv 2024

Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

arXiv 2024

ReactXT: Understanding Molecular "Reaction-ship" via Reaction-Contextualized Molecule-Text Pretraining

arXiv 2024

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment

arXiv 2024

ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis

arXiv 2024

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

arXiv 2024

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication

arXiv 2024

Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs

arXiv 2024

Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

EMNLP

UltraFeedback: Boosting Language Models with High-quality Feedback

ICML

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

arXiv 2023

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

arXiv 2023

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

arXiv 2023

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

arXiv 2023

Tool Learning with Foundation Models

arXiv 2023

OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of Pre-trained Models

arXiv 2023

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

arXiv 2023

ProAgent: From Robotic Process Automation to Agentic Process Automation

arXiv 2023

D-Bot: Database Diagnosis System using Large Language Models

arXiv 2023

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

CVPR 2024 1

VPGTrans: Transfer Visual Prompt Generator across LLMs

NeurIPS 2023 11

ConPET: Continual Parameter-Efficient Tuning for Large Language Models

arXiv 2023

Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub

arXiv 2023

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

arXiv 2023

Fusion-in-T5: Unifying Document Ranking Signals for Improved Information Retrieval

arXiv 2023

Exploring Format Consistency for Instruction Tuning

arXiv 2023

Exploring the Impact of Model Scaling on Parameter-Efficient Tuning

arXiv 2023

NExT-Chat: An LMM for Chat, Detection and Segmentation

arXiv 2023

Sparse Low-rank Adaptation of Pre-trained Language Models

arXiv 2023

Plug-and-Play Knowledge Injection for Pre-trained Language Models

arXiv 2023

Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants

arXiv 2023

Augmentation-Adapted Retriever Improves Generalization of Language Models as Generic Plug-In

arXiv 2023

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

arXiv 2023

CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models

arXiv 2023

Plug-and-Play Document Modules for Pre-trained Models

arXiv 2023

MUSER: A Multi-View Similar Case Retrieval Dataset

arXiv 2023

Language-Specific Representation of Emotion-Concept Knowledge Causally Supports Emotion Inference

arXiv 2023

Won't Get Fooled Again: Answering Questions with False Premises

arXiv 2023

GACT: Activation Compressed Training for Generic Network Architectures

arXiv 2022

Exploring the Universal Vulnerability of Prompt-based Learning Paradigm

Findings (NAACL) 2022 7

COPEN: Probing Conceptual Knowledge in Pre-trained Language Models

arXiv 2022

Reduce Catastrophic Forgetting of Dense Retrieval Training with Teleportation Negatives

arXiv 2022

OpenPrompt: An Open-source Framework for Prompt-learning

ACL 2022 5

Few-NERD: A Few-Shot Named Entity Recognition Dataset

ACL 2021 5

Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents

arXiv 2021

Fully Hyperbolic Neural Networks

ACL 2022 5

MoEfication: Transformer Feed-forward Layers are Mixtures of Experts

Findings (ACL) 2022 5

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

cpt-colorful-prompt-tuning-for-pre-trained-1

Sub-Character Tokenization for Chinese Pretrained Language Models

arXiv 2021

Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger

ACL 2021 5

CPM: A Large-scale Generative Chinese Pre-trained Language Model

arXiv 2020

Coreferential Reasoning Learning for Language Representation

EMNLP 2020 11

CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models

arXiv 2020

Selective Weak Supervision for Neural Information Retrieval

arXiv 2020

OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction

opennre-an-open-and-extensible-toolkit-for-1

DocRED: A Large-Scale Document-Level Relation Extraction Dataset

docred-a-large-scale-document-level-relation-1

FewRel 2.0: Towards More Challenging Few-Shot Relation Classification

fewrel-20-towards-more-challenging-few-shot-1

KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

arXiv 2019

Word-level Textual Adversarial Attacking as Combinatorial Optimization

word-level-textual-adversarial-attacking-as