Hao Wu

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

arXiv 2026

FireRed-OCR Technical Report

arXiv 2026

Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models

arXiv 2026

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

arXiv 2026

PRISM: Position-encoded Regressive Inverse Spectral Model for Multilayer Thin-Film Design

arXiv 2026

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

arXiv 2026

MemOS: A Memory OS for AI System

arXiv 2025

NeuralOM: Neural Ocean Model for Subseasonal-to-Seasonal Simulation

arXiv 2025

Pretraining Large Language Models with NVFP4

arXiv 2025

GCPO: When Contrast Fails, Go Gold

arXiv 2025

OneForecast: A Universal Framework for Global and Regional Weather Forecasting

arXiv 2025

A Systematic Study of Code Obfuscation Against LLM-based Vulnerability Detection

arXiv 2025

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

arXiv 2025

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

arXiv 2025

Step-GUI Technical Report

arXiv 2025

CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks

arXiv 2024

Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning

arXiv 2024

One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

ICCV 2025

Learning Graph Quantized Tokenizers

arXiv 2024