Anikait Singh

Cite

Notes

Only stored in your browser.

Attribution

5papers

Authored papers

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

arXiv 2025

Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models

arXiv 2025

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

arXiv 2025

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

arXiv 2024

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

arXiv 2023

No known affiliations.

from 5 papers

Chelsea Finn

Rafael Rafailov

Archit Sharma

Kanishk Gandhi

Nathan Lile

Stefano Ermon

Abhishek Padalkar

Acorn Pooley

Ajinkya Jain

Alex Bewley