Guanting Dong

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

arXiv 2026

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

arXiv 2026

ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

arXiv 2026

Agentic Reinforced Policy Optimization

arXiv 2025

DeepAgent: A General Reasoning Agent with Scalable Toolsets

arXiv 2025

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

arXiv 2025

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

arXiv 2025

Hierarchical Document Refinement for Long-context Retrieval-augmented Generation

arXiv 2025

Agentic Entropy-Balanced Policy Optimization

arXiv 2025

V-Thinker: Interactive Thinking with Images

arXiv 2025

We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

arXiv 2025

Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search

arXiv 2025

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

arXiv 2025

ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

arXiv 2025

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

arXiv 2025

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

arXiv 2025

Search-o1: Agentic Search-Enhanced Large Reasoning Models

arXiv 2025

Qwen2 Technical Report

arXiv 2024

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research

arXiv 2024

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

arXiv 2024

Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

arXiv 2024

CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

arXiv 2024

PreAct: Prediction Enhances Agent's Planning Ability

arXiv 2024

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

arXiv 2024

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

arXiv 2024

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

arXiv 2024

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning

arXiv 2024

Smaller Language Models Are Better Instruction Evolvers

arXiv 2024

Knowledge Editing on Black-box Large Language Models

arXiv 2024

MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning

arXiv 2023

InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models

arXiv 2023

Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task

arXiv 2023

Large Language Models Meet Open-World Intent Discovery and Recognition: An Evaluation of ChatGPT

arXiv 2023