Wayne Xin Zhao

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

arXiv 2026

Toward Autonomous Long-Horizon Engineering for ML Research

arXiv 2026

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

arXiv 2026

LLM-in-Sandbox Elicits General Agentic Intelligence

arXiv 2026

SWE-World: Building Software Engineering Agents in Docker-Free Environments

arXiv 2026

InCoder-32B: Code Foundation Model for Industrial Scenarios

arXiv 2026

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

arXiv 2025

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

arXiv 2025

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

arXiv 2025

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

arXiv 2025

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

arXiv 2025

Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

arXiv 2025

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

arXiv 2025

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

arXiv 2025

VIPER: Process-aware Evaluation for Generative Video Reasoning

arXiv 2025

ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework

arXiv 2025

R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

arXiv 2025

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

arXiv 2025

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

arXiv 2024

LLMBox: A Comprehensive Library for Large Language Models

arXiv 2024

YuLan: An Open-source Large Language Model

arXiv 2024

YuLan-Mini: An Open Data-efficient Language Model

arXiv 2024

On Domain-Specific Post-Training for Multimodal Large Language Models

arXiv 2024

Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning

arXiv 2024

Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models

arXiv 2024

Towards Effective and Efficient Continual Pre-training of Large Language Models

arXiv 2024

CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration

arXiv 2024

The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

arXiv 2024

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

arXiv 2024

REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering

arXiv 2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

arXiv 2024

Towards Event-oriented Long Video Understanding

arXiv 2024

A Survey of Large Language Models

arXiv 2023

Evaluating Object Hallucination in Large Vision-Language Models

arXiv 2023

LibCity: A Unified Library Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction

towards-efficient-and-comprehensive-urban

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

arXiv 2023

A Survey on Large Language Model based Autonomous Agents

arXiv 2023

User Behavior Simulation with Large Language Model based Agents

arXiv 2023

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models

arXiv 2023

StructGPT: A General Framework for Large Language Model to Reason over Structured Data

arXiv 2023

Adapting Large Language Models by Integrating Collaborative Semantics for Recommendation

arXiv 2023

Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment

arXiv 2023

Learning to Imagine: Visually-Augmented Natural Language Generation

arXiv 2023

Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References

arXiv 2023

Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

arXiv 2023

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

arXiv 2023

Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning

evaluating-and-improving-tool-augmented

Improving Conversational Recommendation Systems via Counterfactual Data Simulation

arXiv 2023

Dense Text Retrieval based on Pretrained Language Models: A Survey

arXiv 2022

Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

arXiv 2022

Filter-enhanced MLP is All You Need for Sequential Recommendation

arXiv 2022

Debiased Contrastive Learning of Unsupervised Sentence Representations

ACL 2022 5

Learning to Transfer Prompts for Text Generation

NAACL 2022 7

ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation

arXiv 2022

C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System

arXiv 2022

Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models

COLING 2022 10