Robert Kirk

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

arXiv 2025

Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models

arXiv 2024

Understanding the Effects of RLHF on LLM Generalisation and Diversity

arXiv 2023

Reward Model Ensembles Help Mitigate Overoptimization

arXiv 2023

No known affiliations.

from 4 papers

Edward Grefenstette

Acyr Locatelli

Christoforos Nalmpantis

David Krueger

Dwarak Talupuru

Eric Hambro

Geoffrey Irving

Ishan Mishra

Ishita Mediratta

Jelena Luketina