Prime Community

Codebase search environment for Triton GPU programming library - tests agent's ability to navigate and answer questions about the Triton codebase u...

RL EnvCodebase SearchTool Use

Seeclick RL Env (Prime Community)

Test model's ability to correctly click on target UI

RL EnvMultimodal

WEB PY RL Env (Prime Community)

Humanity's Last Examination (HLE) benchmark environment for Prime Community Environments

RL EnvHleMulti ModalTool UseMultimodal

Mastermind RL Env (Prime Community)

Mastermind multi-turn game environment for Verifiers

RL EnvGameReasoningGames

Gutenberg ENV RL Env (Prime Community)

Agentic RAG over Sherlock Holmes short stories for literary Q&A

RL EnvGutenbergAgentic SearchRAG

TEXT Quests RL Env (Prime Community)

Classic Infocom interactive fiction games (Zork, Enchanter, etc.) for evaluating LLM reasoning, planning, and world modeling

RL EnvText GamesReasoningPlanning

Transformerpuzzles RL Env (Prime Community)

TransformerPuzzles by Sasha Rush

RL EnvSandboxes

MCP Universe RL Env (Prime Community)

MCP Universe environment for evaluating LLMs in wide range of tasks with MCP server

RL EnvMcpToolsTool Calling

Puzzles Modal RL Env (Prime Community)

GPU puzzles environment by Sasha Rush using modal sandboxes

RL EnvProgrammingCode

Backend Bench RL Env (Prime Community)

BackendBench environment for LLM kernel benchmarking

RL EnvKernels

Stepfun Prover RL Env (Prime Community)

A multi-turn RL environment for formal theorem proving in Lean 4, where models alternate between reasoning, sketching proof code, and receiving ver...

RL EnvMathTheorem ProvingLean4

Spiral Bench RL Env (Prime Community)

Multi-turn text-based environment for evaluating agents on the Spiral-Bench dataset.

RL EnvLong HorizonSafetyRiskSecurity

Agent Bench RL Env (Prime Community)

A realistic virtual EHR environment to benchmark medical LLM agents on clinical tasks.

RL EnvMedicalEhrClinical

FH Aviary RL Env (Prime Community)

Future House Aviary wrapper for verifiers - Scientific reasoning environments with tools

RL EnvAviaryScientific ReasoningToolsScience

AGI TOOL RL Env (Prime Community)

ARC-AGI 1 + 2 with tool calling (Abstract and Reasoning Corpus)

RL EnvArc AGITool UseReasoningGames

Aider Polyglot RL Env (Prime Community)

Multi-turn environment for testing coding abilities across multiple programming languages using Exercism exercises

RL EnvCodingPolyglotCode

MMLU RL Env (Prime Community)

MMLU evaluator for multi-subject multiple-choice reasoning.

RL EnvGeneral KnowledgeNLP

Browsecomp PLUS RL Env (Prime Community)

Verifiers environment for BrowseComp-Plus Deep-Research Agent Benchmark. Controlled agent/retriever evaluation on the fixed human-verified corpus.

RL EnvSearch AgentDeep ResearchRetriever

Sycophancy EVAL RL Env (Prime Community)

Evaluates sycophantic behavior in LLMs across four tasks from Sharma et al. (ICLR 2024).

RL EnvSycophancyBiasLanguage Models

Skyrl SQL RL Env (Prime Community)

Multi-turn Text-to-SQL environment with interactive database feedback following SkyRL-SQL methodology

RL EnvSQLText to SQLDatabaseCode

Clockbench RL Env (Prime Community)

ClockBench: multimodal clock reading and reasoning benchmark implemented for verifiers.

RL EnvClockbenchMultimodalVision