Jinguo Zhu

Papers: 12

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

12papers

Authored papers

Attention Residuals

arXiv 2026

2026

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

arXiv 2026

2026

Kimi K2.5: Visual Agentic Intelligence

arXiv 2026

2026

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

arXiv 2025

2025

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

arXiv 2025

2025

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

arXiv 2025

2025

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

arXiv 2025

2025

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

arXiv 2025

2025

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

ICCV 2025

2024

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

arXiv 2024

2024

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

arXiv 2023

2023

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks

CVPR 2023 1

2022

Affiliations

No known affiliations.

Frequent co-authors

from 12 papers

Jifeng Dai

Xizhou Zhu

Wenhai Wang

Lewei Lu

Yu Qiao

Hao Li

Weijie Su

Haoyu Lu

Jiahao Wang

Lin Sui