Linfeng Zhang

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

arXiv 2026

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

arXiv 2026

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

arXiv 2026

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

arXiv 2025

MemOS: A Memory OS for AI System

arXiv 2025

From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

ICCV 2025

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

arXiv 2025

Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

arXiv 2025

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

arXiv 2025

LEGION: Learning to Ground and Explain for Synthetic Image Detection

ICCV 2025

Compression with Global Guidance: Towards Training-free High-Resolution MLLMs Acceleration

arXiv 2025

TACTIC: Translation Agents with Cognitive-Theoretic Interactive Collaboration

arXiv 2025

LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

arXiv 2025

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

arXiv 2025

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

arXiv 2025

SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

arXiv 2025

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

arXiv 2025

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

arXiv 2025

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

arXiv 2025

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

arXiv 2025

Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs

arXiv 2025

Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More

arXiv 2025

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

arXiv 2024

SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis

arXiv 2024

REEF: Representation Encoding Fingerprints for Large Language Models

arXiv 2024

Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model

arXiv 2024

InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

arXiv 2024

Accelerating Diffusion Transformers with Token-wise Feature Caching

arXiv 2024

Decouple-Then-Merge: Towards Better Training for Diffusion Models

arXiv 2024