Yangsibo Huang

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models

arXiv 2024

On Evaluating the Durability of Safeguards for Open-Weight LLMs

arXiv 2024

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

arXiv 2024

Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation

arXiv 2023

No known affiliations.

from 4 papers

Boyi Wei

Danqi Chen

professor

Kai Li

Luxi He

Peter Henderson

Prateek Mittal

Tinghao Xie

Xiangyu Qi

Amer Sinha

Badih Ghazi