Kaiyou Song

Cite

Notes

Only stored in your browser.

Attribution

5papers

Authored papers

Ming-Omni: A Unified Multimodal Model for Perception and Generation

arXiv 2025

M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance

arXiv 2025

Semantic-Aware Autoregressive Image Modeling for Visual Representation Learning

arXiv 2023

Bootstrap Masked Visual Modeling via Hard Patches Mining

arXiv 2023

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

droppos-pre-training-vision-transformers-by

No known affiliations.

from 5 papers

Haochen Wang

Jingdong Chen

Jun Zhou

Junsong Fan

Qinglong Zhang

Qingpei Guo

Sirui Gao

Tong Wang

Xuzheng Yu

Yunxiao Sun