Arian Hosseini

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

arXiv 2025

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

arXiv 2024

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models

arXiv 2024

Joint Prompt Optimization of Stacked LLMs using Variational Inference

joint-prompt-optimization-of-stacked-llms

No known affiliations.

from 4 papers

Michael Noukhovitch

Shengyi "Costa" Huang

researcher

Aaron Courville

Adam Trischler

researcher

Aditya Grover

Alessandro Sordoni

Anna Rohrbach

Friederike Niedtner

Hritik Bansal

grad-student

Kai-Wei Chang