Rui Shao

Papers: 12

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

12papers

Authored papers

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

arXiv 2026

2026

PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

arXiv 2026

2026

FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

ICCV 2025

2025

LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant

CVPR 2025 1

2025

HiconAgent: History Context-aware Policy Optimization for GUI Agents

arXiv 2025

2025

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

arXiv 2025

2025

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy

CVPR 2025 1

2025

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts

arXiv 2025

2025

SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation

arXiv 2024

2024

Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding

arXiv 2024

2024

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

arXiv 2024

2024

Detecting and Grounding Multi-Modal Media Manipulation

CVPR 2023 1

2023

Affiliations

No known affiliations.

Frequent co-authors

from 12 papers

Liqiang Nie

Gongwei Chen

Weili Guan

Yuquan Xie

Zaijing Li

Dongmei Jiang

Kaiwen Zhou

Renshan Zhang

Shuai Wang

Wei Li