Junxian He

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

arXiv 2026

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

arXiv 2026

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

arXiv 2026

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

arXiv 2025

Predictive Data Selection: The Data That Predicts Is the Data That Teaches

arXiv 2025

Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

arXiv 2025

CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

arXiv 2025

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

arXiv 2025

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

arXiv 2025

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

arXiv 2025

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

arXiv 2025

Mirage or Method? How Model-Task Alignment Induces Divergent RL Conclusions

arXiv 2025

On the Perception Bottleneck of VLMs for Chart Understanding

arXiv 2025

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

arXiv 2025

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

arXiv 2025

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

arXiv 2025

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

arXiv 2025

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

arXiv 2025

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

arXiv 2025

Compression Represents Intelligence Linearly

arXiv 2024

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

arXiv 2024

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

arXiv 2024

DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving

dart-math-difficulty-aware-rejection-tuning

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

arXiv 2024

Non-myopic Generation of Language Models for Reasoning and Planning

arXiv 2024

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

c-eval-a-multi-level-multi-discipline-chinese

A Survey of Reasoning with Foundation Models

arXiv 2023

Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs

arXiv 2023

What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning

arXiv 2023

FELM: Benchmarking Factuality Evaluation of Large Language Models

NeurIPS 2023 11

Evaluating Factual Consistency of Summaries with Large Language Models

arXiv 2023

InstructCoder: Instruction Tuning Large Language Models for Code Editing

arXiv 2023

Composing Parameter-Efficient Modules with Arithmetic Operations

arXiv 2023

Contrastive Learning of Sentence Embeddings from Scratch

arXiv 2023

GeoGalactica: A Scientific Large Language Model in Geoscience

arXiv 2023

Automatic Model Selection with Large Language Models for Reasoning

arXiv 2023