Wenjie Li

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

arXiv 2026

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

arXiv 2026

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

arXiv 2026

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

arXiv 2026

One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

arXiv 2026

Agent-as-a-Judge

arXiv 2026

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

arXiv 2026

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning

arXiv 2025

TokenSkip: Controllable Chain-of-Thought Compression in LLMs

arXiv 2025

$\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning

arXiv 2025

SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution

arXiv 2025

RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection

arXiv 2025

PEToolLLM: Towards Personalized Tool Learning in Large Language Models

arXiv 2025

SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

arXiv 2025

LIMI: Less is More for Agency

arXiv 2025

Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

arXiv 2025

Parallel Test-Time Scaling for Latent Reasoning Models

arXiv 2025

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

arXiv 2025

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

arXiv 2025

Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

arXiv 2025

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

arXiv 2025

Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning

arXiv 2025

Towards Text-Image Interleaved Retrieval

arXiv 2025

Goal-Oriented Time-Series Forecasting: Foundation Framework Design

arXiv 2025

How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation

arXiv 2025

Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding Tutors

arXiv 2025

Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding

arXiv 2024

Direct Preference Optimization Using Sparse Feature-Level Constraints

arXiv 2024

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

arXiv 2024

The Critique of Critique

arXiv 2024

Integrative Decoding: Improve Factuality via Implicit Self-consistency

arXiv 2024

Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning Framework for Dialogue

arXiv 2024

ICON: Improving Inter-Report Consistency in Radiology Report Generation via Lesion-aware Mixup Augmentation

arXiv 2024

OpenResearcher: Unleashing AI for Accelerated Scientific Research

arXiv 2024

Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset

arXiv 2024

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

arXiv 2024

Enhancing Tool Retrieval with Iterative Feedback from Large Language Models

arXiv 2024

Self-Detoxifying Language Models via Toxification Reversal

arXiv 2023

ORGAN: Observation-Guided Radiology Report Generation via Tree Reasoning

arXiv 2023

RECAP: Towards Precise Radiology Report Generation via Dynamic Disease Progression Reasoning

arXiv 2023

Dialogue Planning via Brownian Bridge Stochastic Process for Goal-directed Proactive Dialogue

arXiv 2023

Medical Dialogue Generation via Dual Flow Modeling

arXiv 2023

KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained Language Model

arXiv 2023

How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation

arXiv 2023