GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks

OpenAI's eval of frontier models against expert deliverables in 44 occupations spanning the top GDP-contributing sectors of the US economy, judged blind by industry experts.

Open

Preview
Publisher: OpenAI
Year: 2025
Venue: preprint
ArXiv: arxiv.org/abs/2510.04374
Authors: 13
Hosting: External sourcelicense unknown

Cite

Notes

Only stored in your browser.

Attribution

Abstract & full text: arxiv.org/abs/2510.04374
TL;DR: semanticscholar.org/paper/7ac10c0a06598a32d35be39f0f937587aaffe8e5

Attribution policy →

Introduces 1 artifact - 1 eval

TL;DR

Semantic Scholar

It is found that frontier model performance on GDPval is improving roughly linearly over time, and that the current best frontier models are approaching industry experts in deliverable quality.

Artifacts

Evals

GDPval

Authors

Adam Fry Boaz Barak Chris Painter Elizabeth Proehl Grace Kim Jason Kwon Michele Wang Olivia Watkins Rachel Dias Ronnie Chatterji Samuel Miserendino Tejal Patwardhan Tracy Yang