Etai Littwin

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Stabilizing Transformer Training by Preventing Attention Entropy Collapse

arXiv 2023

When can transformers reason with abstract symbols?

arXiv 2023

Vanishing Gradients in Reinforcement Finetuning of Language Models

arXiv 2023

No known affiliations.

from 3 papers

Joshua Susskind

Omid Saremi

Arwen Bradley

Dan Busbridge

Emmanuel Abbe

Enric Boix-Adsera

Hattie Zhou

Jason Ramapuram

Jiatao Gu

Josh Susskind