Zhichen Dong

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models

arXiv 2024

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

arXiv 2024

No known affiliations.

from 2 papers

Chao Yang

Jie Liu

Yu Qiao

Zhanhui Zhou

Jiaheng Liu

Wanli Ouyang

Zhixuan Liu