Lu Yuan

Designing a Better Asymmetric VQGAN for StableDiffusion

arXiv 2023

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

CVPR 2024 1

iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse Views

arXiv 2023

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting

ICCV 2023 1

Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models

arXiv 2023

Fully Authentic Visual Question Answering Dataset from Online Communities

arXiv 2023

GLIPv2: Unifying Localization and Vision-Language Understanding

arXiv 2022

Focal Modulation Networks

arXiv 2022

Reduce Information Loss in Transformers for Pluralistic Image Inpainting

CVPR 2022 1

Generalized Decoding for Pixel, Image, and Language

CVPR 2023 1

DaViT: Dual Attention Vision Transformers

arXiv 2022

Semantic Image Synthesis via Diffusion Models

arXiv 2022

CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet

arXiv 2022

RegionCLIP: Region-based Language-Image Pretraining

CVPR 2022 1

CvT: Introducing Convolutions to Vision Transformers

ICCV 2021 10

Vector Quantized Diffusion Model for Text-to-Image Synthesis

CVPR 2022 1

Lite-HRNet: A Lightweight High-Resolution Network

CVPR 2021 1

Dynamic Head: Unifying Object Detection Heads with Attentions

CVPR 2021 1

HairCLIP: Design Your Hair by Text and Reference Image

CVPR 2022 1

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

cswin-transformer-a-general-vision-1

Florence: A New Foundation Model for Computer Vision

arXiv 2021