Boyi Wei

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

arXiv 2025

Dynamic Risk Assessments for Offensive Cybersecurity Agents

arXiv 2025

On Evaluating the Durability of Safeguards for Open-Weight LLMs

arXiv 2024

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

arXiv 2024

No known affiliations.

from 4 papers

Peter Henderson

Luxi He

Prateek Mittal

Tinghao Xie

Xiangyu Qi

Yangsibo Huang

Benedikt Stroebl

Bo Li

Chen Qian

Dacheng Li

grad-student