Jun Liu

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

arXiv 2026

MAXS: Meta-Adaptive Exploration with LLM Agents

arXiv 2026

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

arXiv 2026

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

arXiv 2026

AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

arXiv 2025

MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

arXiv 2025

MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

arXiv 2025

Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation

arXiv 2025

Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs

arXiv 2025

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

arXiv 2025

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

arXiv 2025

FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning

arXiv 2025

Baichuan-Omni-1.5 Technical Report

arXiv 2025

Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View

arXiv 2025

$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation

arXiv 2025

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

arXiv 2025

MUR: Momentum Uncertainty guided Reasoning for Large Language Models

arXiv 2025

PathoHR: Breast Cancer Survival Prediction on High-Resolution Pathological Images

arXiv 2025

S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models

arXiv 2025

Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction

arXiv 2025

Baichuan-Omni Technical Report

arXiv 2024

Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models

arXiv 2024

QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation

arXiv 2024

EvoChart: A Benchmark and a Self-Training Approach Towards Real-World Chart Understanding

arXiv 2024

Spider: Any-to-Many Multimodal LLM

arXiv 2024

Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

arXiv 2024

GUICourse: From General Vision Language Models to Versatile GUI Agents

arXiv 2024

Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

arXiv 2024

Nyonic Technical Report

arXiv 2024