Hongyang Li

Pseudo-Simulation for Autonomous Driving

arXiv 2025

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

arXiv 2025

MTGS: Multi-Traversal Gaussian Splatting

arXiv 2025

SimScale: Learning to Drive via Real-World Simulation at Scale

arXiv 2025

SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model

arXiv 2025

BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects

arXiv 2025

Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks

arXiv 2024

GenAD: Generalized Predictive Model for Autonomous Driving

CVPR 2024 1

Learning Manipulation by Predicting Interaction

arXiv 2024

Multi-view biomedical foundation models for molecule-target and property prediction

arXiv 2024

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

arXiv 2024

Embodied Understanding of Driving Scenarios

arXiv 2024

Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation

arXiv 2024

End-to-end Autonomous Driving: Challenges and Frontiers

arXiv 2023

Scene as Occupancy

ICCV 2023 1

OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping

openlane-v2-a-topology-reasoning-benchmark

detrex: Benchmarking Detection Transformers

arXiv 2023

Graph-based Topology Reasoning for Driving Scenes

arXiv 2023

LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving

arXiv 2023

A Survey of Reasoning with Foundation Models

arXiv 2023

Detection Transformer with Stable Matching

ICCV 2023 1

Visual In-Context Prompting

CVPR 2024 1

Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature Mimicking

arXiv 2023

LLM4Drive: A Survey of Large Language Models for Autonomous Driving

arXiv 2023

Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection

leveraging-vision-centric-multi-modal

Geometric-aware Pretraining for Vision-centric 3D Object Detection

arXiv 2023

Density-invariant Features for Distant Point Cloud Registration

ICCV 2023 1

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

arXiv 2023

DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving

ICCV 2023 1