Jimin Zhuang

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models

arXiv 2025

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

arXiv 2025

ACVUBench: Audio-Centric Video Understanding Benchmark

arXiv 2025

No known affiliations.

from 3 papers

Changli Tang

Chao Zhang

Guangzhi Sun

Wei Li

Yixuan Li

Yudong Yang

Zejun Ma

Peihan Li

Yifan Jiang