Anamika Lochab

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control

arXiv 2026

Energy-Based Reward Models for Robust Language Model Alignment

arXiv 2025

Cascade Reward Sampling for Efficient Decoding-Time Alignment

arXiv 2024

No known affiliations.

from 3 papers

Ruqi Zhang

Ananth Grama

Bolian Li

Yifan Wang

Yi Ding