Rui Yang

Multimodal OCR: Parse Anything from Documents

arXiv 2026

Orchard: An Open-Source Agentic Modeling Framework

arXiv 2026

Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey

arXiv 2026

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

arXiv 2026

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

arXiv 2026

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

arXiv 2026

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

arXiv 2026

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

arXiv 2026

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

arXiv 2025

Seed1.5-VL Technical Report

arXiv 2025

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

arXiv 2025

Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models

arXiv 2025

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

arXiv 2025

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

arXiv 2025

Visual Spatial Tuning

arXiv 2025

Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models

arXiv 2025

Rethinking Diverse Human Preference Learning through Principal Component Analysis

arXiv 2025

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

arXiv 2024

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards

arXiv 2024

KG-Rank: Enhancing Large Language Models for Medical QA with Knowledge Graphs and Ranking Techniques

arXiv 2024

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

arXiv 2024

Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education

arXiv 2024

DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

arXiv 2024

Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective

arXiv 2024

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

arXiv 2024

BoxSnake: Polygonal Instance Segmentation with Box Supervision

ICCV 2023 1

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

arXiv 2023

GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction

NeurIPS 2023 11

Toward Real Text Manipulation Detection: New Dataset and New Solution

arXiv 2023

What is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL?

arXiv 2023

Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness

arXiv 2023