Jiachen Li

The Python Simulations of Chemistry Framework: 10 years of an open-source quantum chemistry project

arXiv 2026

A Very Big Video Reasoning Suite

arXiv 2026

Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models

arXiv 2026

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

arXiv 2025

Generative AI for Autonomous Driving: Frontiers and Opportunities

arXiv 2025

UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving

ICCV 2025

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

arXiv 2025

Can Large Vision Language Models Read Maps Like a Human?

arXiv 2025

CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts

arXiv 2024

BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment

arXiv 2024

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

arXiv 2024

TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation

arXiv 2024

CMP: Cooperative Motion Prediction with Multi-Agent Communication

arXiv 2024

T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback

arXiv 2024

T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

arXiv 2024