Zuwei Long

Cite

Notes

Only stored in your browser.

Attribution

5papers

Authored papers

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

arXiv 2026

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

arXiv 2026

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

arXiv 2025

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

arXiv 2025

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

arXiv 2024

No known affiliations.

from 5 papers

Xing Sun

Yunhang Shen

Chaoyou Fu

Haoyu Cao

Caifeng Shan

Heting Gao

Ke Li

Ran He

Haojia Lin

Lijiang Li