Yong Li

Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning

arXiv 2025

UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces

arXiv 2025

RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

arXiv 2025

UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

ICCV 2025

RoboScape: Physics-informed Embodied World Model

arXiv 2025

CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

arXiv 2025

Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

arXiv 2025

Mamba Integrated with Physics Principles Masters Long-term Chaotic System Forecasting

arXiv 2025

CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing

arXiv 2025

Wan: Open and Advanced Large-Scale Video Generative Models

arXiv 2025

Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space

arXiv 2025

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

arXiv 2025

CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching

arXiv 2025

AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search

arXiv 2025

Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning

arXiv 2025

Llumnix: Dynamic Scheduling for Large Language Model Serving

arXiv 2024

Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generation

arXiv 2024

CityGPT: Empowering Urban Spatial Cognition of Large Language Models

arXiv 2024

AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework

arXiv 2024

CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks

arXiv 2024

SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation

arXiv 2024

SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World

arXiv 2024

Re-Attentional Controllable Video Diffusion Editing

arXiv 2024

Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity

arXiv 2023

Edit Temporal-Consistent Videos with Image Diffusion Model

arXiv 2023

Understanding Expressivity of GNN in Rule Learning

arXiv 2023

EduChat: A Large-Scale Language Model-based Chatbot System for Intelligent Education

arXiv 2023