Jun Zhao

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

arXiv 2026

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

arXiv 2026

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

arXiv 2026

WideSeek: Advancing Wide Research via Multi-Agent Scaling

arXiv 2026

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

arXiv 2026

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

arXiv 2026

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

arXiv 2026

Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

arXiv 2025

Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

arXiv 2025

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

arXiv 2025

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

arXiv 2025

GATE: Graph-based Adaptive Tool Evolution Across Diverse Tasks

arXiv 2025

Reasoning-Table: Exploring Reinforcement Learning for Table Reasoning

arXiv 2025

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

arXiv 2025

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

arXiv 2025

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

arXiv 2025

Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement

arXiv 2025

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

arXiv 2025

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

arXiv 2025

JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation

arXiv 2024

Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning

arXiv 2024

Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

arXiv 2024

$\textit{SKIntern}$: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models

arXiv 2024

Self-Demos: Eliciting Out-of-Demonstration Generalizability in Large Language Models

arXiv 2024

RSTAR4D: Rotational Streak Artifact Reduction in 4D CBCT using a Separable 4D CNN

arXiv 2024

Secrets of RLHF in Large Language Models Part II: Reward Modeling

arXiv 2024

DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

arXiv 2024

RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models

arXiv 2024

LongHeads: Multi-Head Attention is Secretly a Long Context Processor

arXiv 2024

TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer Capabilities

arXiv 2024

Awakening Augmented Generation: Learning to Awaken Internal Knowledge of Large Language Models for Question Answering

arXiv 2024

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

arXiv 2024

LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

arXiv 2024

LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin

arXiv 2023

Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks

arXiv 2023

RE-Matching: A Fine-Grained Semantic Matching Method for Zero-Shot Relation Extraction

arXiv 2023

LMTuner: An user-friendly and highly-integrable Training Framework for fine-tuning Large Language Models

arXiv 2023

S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models

arXiv 2023

Oasis: Data Curation and Assessment System for Pretraining of Large Language Models

arXiv 2023

MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models

arXiv 2023