Han Wang

SDF-Net: Structure-Aware Disentangled Feature Learning for Opticall-SAR Ship Re-identification

arXiv 2026

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

arXiv 2026

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

arXiv 2026

Stabilizing Efficient Reasoning with Step-Level Advantage Selection

arXiv 2026

From Pixels to Concepts: Do Segmentation Models Understand What They Segment?

arXiv 2026

Multimodal Fact-Level Attribution for Verifiable Reasoning

arXiv 2026

OmniOCR: Generalist OCR for Ethnic Minority Languages

arXiv 2026

FORTIS: Benchmarking Over-Privilege in Agent Skills

arXiv 2026

POEMetric: The Last Stanza of Humanity

arXiv 2026

Vision as LoRA

arXiv 2025

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

arXiv 2025

Retrieval-Augmented Generation with Conflicting Evidence

arXiv 2025

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

arXiv 2025

SAIL-VL2 Technical Report

arXiv 2025

MMAUD: A Comprehensive Multi-Modal Anti-UAV Dataset for Modern Miniature Drone Threats

arXiv 2024

MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

arXiv 2024

Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning

arXiv 2024

Elysium: Exploring Object-level Perception in Videos via MLLM

arXiv 2024

Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM

arXiv 2024

Soft Self-Consistency Improves Language Model Agents

arXiv 2024

AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge

arXiv 2024

Chinese MentalBERT: Domain-Adaptive Pre-training on Social Media for Chinese Mental Health Text Analysis

arXiv 2024

MemeCraft: Contextual and Stance-Driven Multimodal Meme Generation

arXiv 2024