Gen Luo

Papers: 21

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

21papers

Authored papers

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

arXiv 2026

2026

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

arXiv 2025

2025

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

arXiv 2025

2025

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

arXiv 2025

2025

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

arXiv 2025

2025

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

arXiv 2025

2025

Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models

arXiv 2025

2025

GenExam: A Multidisciplinary Text-to-Image Exam

arXiv 2025

2025

Sequential Diffusion Language Models

arXiv 2025

2025

Training Long-Context LLMs Efficiently via Chunk-wise Optimization

arXiv 2025

2025

Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation

arXiv 2025

2025

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

arXiv 2025

2025

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

arXiv 2025

2025

Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding

arXiv 2025

2025

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

arXiv 2025

2025

Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?

arXiv 2025

2025

Dynamic Pyramid Network for Efficient Multimodal Large Language Model

arXiv 2025

2025

FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression

arXiv 2024

2024

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

arXiv 2024

2024

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models

arXiv 2024

2024

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

arXiv 2024

2024

Affiliations

No known affiliations.

Frequent co-authors

from 21 papers

Yu Qiao

Wenhai Wang

Jifeng Dai

Changyao Tian

Xue Yang

Rongrong Ji

Weiyun Wang

Xizhou Zhu

Zhaokai Wang

Ganlin Yang