Cihang Xie

ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning

arXiv 2026

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

arXiv 2026

SimpleMem: Efficient Lifelong Memory for LLM Agents

arXiv 2026

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

arXiv 2026

From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

arXiv 2026

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

arXiv 2026

In-Context Reinforcement Learning for Tool Use in Large Language Models

arXiv 2026

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

arXiv 2026

Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows

arXiv 2026

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

arXiv 2026

ClawArena: Benchmarking AI Agents in Evolving Information Environments

arXiv 2026

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

arXiv 2026

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

ICCV 2025

$\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

arXiv 2025

Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

arXiv 2025

OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

arXiv 2025

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

arXiv 2025

GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset

arXiv 2025

AHELM: A Holistic Evaluation of Audio-Language Models

arXiv 2025

Safety at Scale: A Comprehensive Survey of Large Model Safety

arXiv 2025

SpatialThinker: Reinforcing Scene Graph-Grounded Spatial Reasoning via Dense Rewards

arXiv 2025

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

arXiv 2024

What If We Recaption Billions of Web Images with LLaMA-3?

arXiv 2024

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

arXiv 2024

Autoregressive Pretraining with Mamba in Vision

arXiv 2024

M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation

arXiv 2024