Shuyan Zhou

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

arXiv 2025

The Geometry of Reasoning: Flowing Logics in Representation Space

arXiv 2025

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

arXiv 2025

FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback

arXiv 2025

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

NeurIPS

VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

ACL

WebArena: A Realistic Web Environment for Building Autonomous Agents

ICLR

Beyond Browsing: API-Based Web Agents

arXiv 2024

Refusal-Trained LLMs Are Easily Jailbroken As Browser Agents

arXiv 2024

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

arXiv 2024

WebCanvas: Benchmarking Web Agents in Online Environments

arXiv 2024

CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code

arXiv 2023

2023

Causal Reasoning of Entities and Events in Procedural Texts

arXiv 2023

2023

Language Models of Code are Few-Shot Commonsense Learners

arXiv 2022

Execution-Based Evaluation for Open-Domain Code Generation

arXiv 2022

DocPrompting: Generating Code by Retrieving the Docs

arXiv 2022

MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages

arXiv 2022

Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data

ACL 2022 5

ActiveBrowser UsePlanningTool CallingAgentic

Eval contributions

WebArena

Carnegie Mellon University

812 long-horizon web tasks across self-hosted clones of Reddit, GitLab, Shopify, Postmill, and a content-management system.

Affiliations

Currently at

Duke University Computer Science

professor · university lab

Previously

CMU Language Technologies Instituteuniversity lab Meta GenAIfrontier lab

Frequent co-authors

from 22 papers

Graham Neubig

professor

13 shared papers

Frank F. Xu

researcher

4 shared papers

Frank F. Xu

4 shared papers

Uri Alon

researcher

4 shared papers

Daniel Fried

professor

Danyang Zhang

researcher

Tao Yu

professor

Tianbao Xie

grad-student

Tianyue Ou

Yiheng Xu

researcher