Jiaming Han

OpenGame: Open Agentic Coding for Games

arXiv 2026

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

arXiv 2026

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

arXiv 2026

Multimodal Long Video Modeling Based on Temporal Dynamic Context

arXiv 2025

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

arXiv 2025

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

arXiv 2025

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

arXiv 2025

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

arXiv 2024

2024

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

CVPR 2025 1

2024

ImageBind-LLM: Multi-modality Instruction Tuning

arXiv 2023

Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

arXiv 2023

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

arXiv 2023

OneLLM: One Framework to Align All Modalities with Language

CVPR 2024 1