Shoufa Chen

Papers: 13

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

13papers

Authored papers

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

arXiv 2026

2026

WavFlow: Audio Generation in Waveform Space

arXiv 2026

2026

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

arXiv 2025

2025

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

arXiv 2025

2025

PixelFlow: Pixel-Space Generative Models with Flow

arXiv 2025

2025

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

arXiv 2025

2025

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

arXiv 2024

2024

ControlAR: Controllable Image Generation with Autoregressive Models

arXiv 2024

2024

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

arXiv 2024

2024

Going Denser with Open-Vocabulary Part Segmentation

ICCV 2023 1

2023

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

arXiv 2023

2023

DiffusionDet: Diffusion Model for Object Detection

ICCV 2023 1

2022

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

arXiv 2022

2022

Affiliations

No known affiliations.

Frequent co-authors

from 13 papers

Ping Luo

Peize Sun

Shilong Zhang

Chongjian Ge

Yuren Cong

Zhiheng Liu

Jonas Schult

Sen He

Tao Xiang

Weiming Ren

grad-student

3 shared papers