Qiushi Sun

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

arXiv 2026

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

arXiv 2026

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

arXiv 2026

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

arXiv 2025

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

arXiv 2025

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

arXiv 2025

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

arXiv 2025

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

arXiv 2025

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

arXiv 2025

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

arXiv 2025

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

arXiv 2025

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

arXiv 2024

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

arXiv 2024

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

arXiv 2024

AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

arXiv 2024

Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models

arXiv 2024

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond

arXiv 2024

Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis

arXiv 2024

Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

arXiv 2024

Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration

arXiv 2023

Boosting Language Models Reasoning with Chain-of-Knowledge Prompting

arXiv 2023

Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication

arXiv 2023

Make Prompt-based Black-Box Tuning Colorful: Boosting Model Generalization from Three Orthogonal Perspectives

arXiv 2023

TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills

arXiv 2023

HugNLP: A Unified and Comprehensive Library for Natural Language Processing

arXiv 2023

Do Large Language Models Know What They Don't Know?

arXiv 2023