StereoSet: Measuring stereotypical bias in pretrained language models

Active

A dataset that measures stereotype bias in language models across gender, race, religion, and profession domains. Models choose between stereotype, anti-stereotype, and unrelated completions to sentences.

Open

Publisher: Massachusetts Institute of Technology
Domain: Safeguards
License: mit
Published: Jun 2025
Notable for: Benchmark for evaluating Safeguards.
Canonical: github.com/UKGovernmentBEIS/inspect_evals/tree/main/src/inspect_evals/stereoset

Cite

Notes

Only stored in your browser.

Attribution

README: github.com/UKGovernmentBEIS/inspect_evals/blob/main/src/inspect_evals/stereoset/README.mdMIT

Attribution policy →

FAQ

What is StereoSet: Measuring stereotypical bias in pretrained language models?: A dataset that measures stereotype bias in language models across gender, race, religion, and profession domains. Models choose between stereotype, anti-stereotype, and unrelated completions to sentences.
What license is StereoSet: Measuring stereotypical bias in pretrained language models under?: StereoSet: Measuring stereotypical bias in pretrained language models is available under mit.