Jing Shao

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

arXiv 2026

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

arXiv 2026

Toward Efficient Agents: Memory, Tool learning, and Planning

arXiv 2026

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

arXiv 2026

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

arXiv 2026

DeepSight: An All-in-One LM Safety Toolkit

arXiv 2026

ρ-EOS: Training-free Bidirectional Variable-Length Control for Masked Diffusion LLMs

arXiv 2026

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

arXiv 2026

TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful?

arXiv 2025

RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

arXiv 2025

Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning

arXiv 2025

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

CVPR 2025 1

LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

arXiv 2025

Geometrically-Constrained Agent for Spatial Reasoning

arXiv 2025

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

arXiv 2025

ExGRPO: Learning to Reason from Experience

arXiv 2025

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

arXiv 2025

Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step

arXiv 2025

Use Property-Based Testing to Bridge LLM Code Generation and Validation

arXiv 2025

Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection

arXiv 2025

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

arXiv 2025

MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems

arXiv 2025

X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability

arXiv 2025

When AI Agents Collude Online: Financial Fraud Risks by Collaborative LLM Agents on Social Platforms

arXiv 2025

ProGuard: Towards Proactive Multimodal Safeguard

arXiv 2025

EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models

arXiv 2024

OASIS: Open Agent Social Interaction Simulations with One Million Agents

arXiv 2024

Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues

arXiv 2024

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

arXiv 2024

CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion

arXiv 2024

MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control

arXiv 2024

REEF: Representation Encoding Fingerprints for Large Language Models

arXiv 2024

SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

arXiv 2024

VLSBench: Unveiling Visual Leakage in Multimodal Safety

arXiv 2024

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

arXiv 2024