Kai Kang

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs

arXiv 2025

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

arXiv 2025

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

arXiv 2024

No known affiliations.

from 3 papers

Afshin Dehghan

Haiming Gang

David Griffiths

Erik Daxberger

Gefen Kohavi

Hong-You Chen

Jianhua Wang

Justin Lazarow

Marcin Eichner

Mingfei Gao