Yuxin Chen

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

arXiv 2026

VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions

arXiv 2026

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

arXiv 2026

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

arXiv 2026

LongCat-Flash-Thinking-2601 Technical Report

arXiv 2026

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

arXiv 2026

Semantic Generative Tuning for Unified Multimodal Models

arXiv 2026

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

arXiv 2026

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

arXiv 2025

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation

arXiv 2025

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

arXiv 2025

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

arXiv 2025

Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

arXiv 2025

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

arXiv 2024

DOGE: Towards Versatile Visual Document Grounding and Referring

ICCV 2025

Taming Rectified Flow for Inversion and Editing

arXiv 2024

Language Representations Can be What Recommenders Need: Findings and Potentials

arXiv 2024