DeepDive

Fresh

Prime Intellect's multi-turn open-web research RL environment - model uses a Serper search tool to answer BrowseComp/SimpleQA-style hop-heavy questions; reward = answer-correctness from a judge.

Type: RL Env
Publisher: Prime Intellect
Capabilities: Retrieval Tool Calling Planning Browser Use
Runtime: verifiers
License: MIT
Size: 1 env, BrowseComp + SimpleQA derived question pool
Published: May 2026
Canonical: app.primeintellect.ai/dashboard/environments/primeintellect/deepdive

Cite

Notes

Only stored in your browser.

Papers

introducesDeepDive: Reinforcement Learning Environments for Deep Research Agents DeepDive: Reinforcement Learning Environments for Deep Research Agents