Fangzhi Xu

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

arXiv 2026

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

arXiv 2026

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

arXiv 2026

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

arXiv 2026

MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

arXiv 2025

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

arXiv 2025

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

arXiv 2025

MUR: Momentum Uncertainty guided Reasoning for Large Language Models

arXiv 2025

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

arXiv 2025

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

arXiv 2025

$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation

arXiv 2025

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

arXiv 2024

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

arXiv 2024

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

arXiv 2024

Vision-Language Models Can Self-Improve Reasoning via Reflection

arXiv 2024

AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

arXiv 2024

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond

arXiv 2024

Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

arXiv 2024