Terminal-Bench: A Benchmark for Real-World Terminal-Based Agents

Laude Institute + Stanford benchmark of containerized terminal tasks for evaluating shell-based coding agents - released as a public leaderboard + paper.

Open

Preview
Publisher: Laude Institute
Year: 2025
Venue: blog
ArXiv: arxiv.org/abs/2601.11868
URL: tbench.ai
Code: github.com/laude-institute/terminal-bench
Stars: 2.4k
Authors: 2
Hosting: External sourcelicense unknown

Cite

Notes

Only stored in your browser.

Attribution

Abstract & full text: tbench.ai
TL;DR: Semantic Scholar
Code: github.com/laude-institute/terminal-bench

Attribution policy →

Introduces 2 artifacts - 1 eval, 1 tool

Artifacts

Evals

Terminal-Bench

Tools

Terminal-Bench (Verifiers wrapper)

Topics

Agents Coding Agents Language Modeling

Authors

Alex Shaw Mike Merrill