Pan Lu

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

arXiv 2026

Recursive Multi-Agent Systems

arXiv 2026

Forecasting Scientific Progress with Artificial Intelligence

arXiv 2026

Interactive Evaluation Requires a Design Science

arXiv 2026

Adaptation of Agentic AI

arXiv 2025

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

arXiv 2025

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

arXiv 2025

Where LLM Agents Fail and How They can Learn From Failures

arXiv 2025

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

arXiv 2025

Latent Collaboration in Multi-Agent Systems

arXiv 2025

Solving Inequality Proofs with Large Language Models

arXiv 2025

ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

arXiv 2025

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

arXiv 2024

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

arXiv 2024

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

arXiv 2024

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

arXiv 2024

Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue

arXiv 2024

Multimodal Procedural Planning via Dual Text-Image Prompting

arXiv 2023

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

arXiv 2023

TheoremQA: A Theorem-driven Question Answering dataset

arXiv 2023

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

arXiv 2023