∞Bench: Extending Long Context Evaluation Beyond 100K Tokens

Active

LLM benchmark featuring an average data length surpassing 100K tokens. Comprises synthetic and realistic tasks spanning diverse domains in English and Chinese.

Publisher: Tsinghua University
Domain: Reasoning
License: mit
Published: Nov 2024
Notable for: Benchmark for evaluating Reasoning.
Canonical: github.com/UKGovernmentBEIS/inspect_evals/tree/main/src/inspect_evals/infinite_bench

Cite

Notes

Only stored in your browser.

Attribution

README: github.com/UKGovernmentBEIS/inspect_evals/blob/main/src/inspect_evals/infinite_bench/README.mdMIT

Attribution policy →

FAQ

What is ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens?: LLM benchmark featuring an average data length surpassing 100K tokens. Comprises synthetic and realistic tasks spanning diverse domains in English and Chinese.
What license is ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens under?: ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens is available under mit.