Ji-Rong Wen

Learning to Retrieve from Agent Trajectories

arXiv 2026

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

arXiv 2026

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

arXiv 2026

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

arXiv 2026

LLM-in-Sandbox Elicits General Agentic Intelligence

arXiv 2026

SWE-World: Building Software Engineering Agents in Docker-Free Environments

arXiv 2026

Towards Long-horizon Agentic Multimodal Search

arXiv 2026

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

arXiv 2026

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

arXiv 2026

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

arXiv 2026

Toward Autonomous Long-Horizon Engineering for ML Research

arXiv 2026

GISA: A Benchmark for General Information-Seeking Assistant

arXiv 2026

Agentic Reinforced Policy Optimization

arXiv 2025

DeepAgent: A General Reasoning Agent with Scalable Toolsets

arXiv 2025

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

arXiv 2025

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

arXiv 2025

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

arXiv 2025

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

arXiv 2025

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

arXiv 2025

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

arXiv 2025

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

arXiv 2025

R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

arXiv 2025

Benchmarking LLMs' Swarm intelligence

arXiv 2025

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

arXiv 2025

Agentic Entropy-Balanced Policy Optimization

arXiv 2025

DeepCritic: Deliberate Critique with Large Language Models

arXiv 2025

HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

arXiv 2025

Neuro-Symbolic Query Compiler

arXiv 2025

CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry

arXiv 2025

How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective

arXiv 2025

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

arXiv 2025

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

arXiv 2025

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

arXiv 2025

Regulatory DNA sequence Design with Reinforcement Learning

arXiv 2025

Very Large-Scale Multi-Agent Simulation in AgentScope

arXiv 2024

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research

arXiv 2024

Discovering symbolic expressions with parallelized tree search

arXiv 2024

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

arXiv 2024

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

arXiv 2024

Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs

arXiv 2024

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

arXiv 2024

A Survey on the Memory Mechanism of Large Language Model based Agents

arXiv 2024

Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing

arXiv 2024

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

arXiv 2024

Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models

arXiv 2024

Towards Event-oriented Long Video Understanding

arXiv 2024

Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning

arXiv 2024

Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models

arXiv 2024

INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning

arXiv 2024

Towards Effective and Efficient Continual Pre-training of Large Language Models

arXiv 2024

LLMBox: A Comprehensive Library for Large Language Models

arXiv 2024

YuLan: An Open-source Large Language Model

arXiv 2024

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

arXiv 2024

YuLan-Mini: An Open Data-efficient Language Model

arXiv 2024

Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

arXiv 2024

CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

arXiv 2024

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions

arXiv 2024

The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

arXiv 2024

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

arXiv 2024

REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering

arXiv 2024

Large Language Model-based Human-Agent Collaboration for Complex Task Solving

arXiv 2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

arXiv 2024

Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models

arXiv 2024

One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models

arXiv 2024

CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds

arXiv 2024

A Survey of Large Language Models

arXiv 2023

Evaluating Object Hallucination in Large Vision-Language Models

arXiv 2023

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

arXiv 2023

A Survey on Large Language Model based Autonomous Agents

arXiv 2023

User Behavior Simulation with Large Language Model based Agents

arXiv 2023

A Survey of Reasoning with Foundation Models

arXiv 2023

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models

arXiv 2023

Large Language Models for Information Retrieval: A Survey

arXiv 2023

RETA-LLM: A Retrieval-Augmented Large Language Model Toolkit

arXiv 2023

Adapting Large Language Models by Integrating Collaborative Semantics for Recommendation

arXiv 2023

Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning

evaluating-and-improving-tool-augmented

Improving Conversational Recommendation Systems via Counterfactual Data Simulation

arXiv 2023

An Analysis and Mitigation of the Reversal Curse

arXiv 2023

Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment

arXiv 2023

Distilling Rule-based Knowledge into Large Language Models

arXiv 2023

Learning to Imagine: Visually-Augmented Natural Language Generation

arXiv 2023

SSP: Self-Supervised Post-training for Conversational Search

arXiv 2023

StructGPT: A General Framework for Large Language Model to Reason over Structured Data

arXiv 2023

Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

arXiv 2023

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

arXiv 2023

Dense Text Retrieval based on Pretrained Language Models: A Survey

arXiv 2022

Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

arXiv 2022

Filter-enhanced MLP is All You Need for Sequential Recommendation

arXiv 2022

MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation

ACL 2022 5

Debiased Contrastive Learning of Unsupervised Sentence Representations

ACL 2022 5

Learning to Transfer Prompts for Text Generation

NAACL 2022 7

There Are a Thousand Hamlets in a Thousand People's Eyes: Enhancing Knowledge-grounded Dialogue with Personal Memory

arXiv 2022

ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation

arXiv 2022

Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models

COLING 2022 10