Xuandong Zhao

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

arXiv 2026

Auditing Agent Harness Safety

arXiv 2026

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

arXiv 2026

Clipping-Free Policy Optimization for Large Language Models

arXiv 2026

Scalable Best-of-N Selection for Large Language Models via Self-Certainty

arXiv 2025

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

arXiv 2025

Reward Shaping to Mitigate Reward Hacking in RLHF

arXiv 2025

Improving LLM Safety Alignment with Dual-Objective Optimization

arXiv 2025

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

arXiv 2025

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

arXiv 2025

Learning to Reason without External Rewards

arXiv 2025

Multimodal Situational Safety

arXiv 2024

CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification

arXiv 2024

DE-COP: Detecting Copyrighted Content in Language Models Training Data

arXiv 2024

Weak-to-Strong Jailbreaking on Large Language Models

arXiv 2024

A Practical Examination of AI-Generated Text Detectors for Large Language Models

arXiv 2024