Medarc

Medarc is a team.

Type: team

Cite

Notes

Only stored in your browser.

Evals

Tools

Models

Papers

Boards

People

Tools

Medicationqa RL Env (Medarc)

Medication QA (MedInfo 2019) – consumer medication question answering benchmark

RL EnvMedicalQAConsumer

MED MCQA RL Env (Medarc)

Med MCQA evaluation environment

RL EnvMedical

PRO Health RL Env (Medarc)

Single-turn medical MCQ

RL EnvMedicalClinicalMMLU

Medhallu RL Env (Medarc)

Medical hallucination detection benchmark

RL EnvHallucination DetectionMedicalClassification

Medqa RL Env (Medarc)

MedQA Evaluation

RL Env

Medrbench RL Env (Medarc)

MedRBench evaluation environment for medical reasoning benchmarks

RL Env

M ARC RL Env (Medarc)

Single-turn medical MCQ

RL EnvMedicalClinical

HEAD QA RL Env (Medarc)

HEAD-QA environment

RL EnvMedical

Metamedqa RL Env (Medarc)

MetaMedQA medical MCQ evaluation

RL Env

Medbullets RL Env (Medarc)

Single-turn medical MCQ

RL EnvMedicalClinicalUsmle

MED HALT RL Env (Medarc)

Med-HALT (Reasoning) evaluation environment for medical LLMs

RL EnvMedicalHallucinationReasoning

Mtsamples Procedures RL Env (Medarc)

MTSamples Procedures is a benchmark of medical transcription samples that tests a model's ability to generate coherent and clinically accurate proc...

RL EnvMedicalProceduresPlan Generation

Pubhealthbench RL Env (Medarc)

Evaluation environment for the Joshua-Harris/PubHealthBench public health MCQ dataset

RL Env

Pubmedqa RL Env (Medarc)

Single-turn medical MCQ

RL EnvMedicalClinical

Longhealth RL Env (Medarc)

LongHealth: A Question Answering Benchmark with Long Clinical Documents - 20 patients, 400 MCQ questions

RL EnvMedicalLong Context

Medconceptsqa RL Env (Medarc)

Your environment description here

RL Env

Medexqa RL Env (Medarc)

MedExQA Evaluation - Medical QA with Multiple Explanations

RL Env

Medec RL Env (Medarc)

Medical Error Detection and Correction in clinical notes from Ben Abacha et al., 2024

RL EnvMedicalClinicalReasoning

ACI Bench RL Env (Medarc)

ACI Bench evaluation environment

RL EnvMedicalClinicalDialogue

Sctpublic RL Env (Medarc)

SCT-Bench Public Environment

RL EnvMedicalClinical

Careqa RL Env (Medarc)

Evaluation environment for the HPAI-BSC/CareQA MCQ dataset

RL EnvHealthcareMedical QAClinicalMedical

QA V 2 RL Env (Medarc)

HEAD-QA v2 environment

RL EnvMedical

Medxpertqa RL Env (Medarc)

MedXpertQA is a highly challenging and comprehensive benchmark designed to evaluate expert-level medical knowledge and advanced reasoning capabilit...

RL Env

Mtsamples Replicate RL Env (Medarc)

MTSamples Replicate is a benchmark of transcribed medical reports that evaluates a model’s ability to generate clinically appropriate treatment pla...

RL EnvMedicalTranscriptionPlan Generation

Supergpqa Medicine RL Env (Medarc)

Single-turn medicine MCQ

RL EnvMedicineSupergpqaMedical

Medagentbench RL Env (Medarc)

A realistic virtual EHR environment to benchmark medical LLM agents on clinical tasks.

RL EnvMedicalEhrClinical

Medagentbenchv 2 RL Env (Medarc)

MedAgentBench V2 environment for tool-calling evaluation.

RL Env

Medcalc Bench RL Env (Medarc)

MedCalc-Bench clinical calculator evaluation

RL Env

Healthbench RL Env (Medarc)

OpenAI HealthBench evaluation by RK Arora et al., 2025

RL EnvMedicalCommunication

Medcasereasoning RL Env (Medarc)

MedCaseReasoning medical diagnosis evaluation

RL EnvMedicalReasoningDiagnosis

Agentclinic RL Env (Medarc)

Multi-agent medical diagnosis environment for evaluating LLMs on clinical diagnosis through interactive conversations.

RL Env

MED Dialog RL Env (Medarc)

MedDialog is a benchmark of real-world doctor-patient conversations focused on health-related concerns and advice and tests a model's ability to su...

RL EnvMedicalDialogueSummarization