Jonathan D. Chang

Cite

Notes

Only stored in your browser.

Attribution

5papers

Authored papers

Critique-out-Loud Reward Models

arXiv 2024

REBEL: Reinforcement Learning via Regressing Relative Rewards

arXiv 2024

Dataset Reset Policy Optimization for RLHF

arXiv 2024

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

arXiv 2024

Learning to Generate Better Than Your LLM

arXiv 2023

No known affiliations.

from 5 papers

Kianté Brantley

Wen Sun

Jason D. Lee

Wenhao Zhan

Dipendra Misra

Gokul Swamy

Owen Oertell

Zhaolin Gao

Brandon Cui

J. Andrew Bagnell