Baining Guo

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

ICCV 2025

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

arXiv 2025

Diffusion Models without Classifier-free Guidance

diffusion-models-without-classifier-free

IRGen: Generative Modeling for Image Retrieval

arXiv 2023

Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding

arXiv 2023

Efficient Diffusion Training via Min-SNR Weighting Strategy

ICCV 2023 1

Adaptive Frequency Filters As Efficient Global Token Mixers

ICCV 2023 1

V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection

arXiv 2023

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

CVPR 2023 1

2022

Vector Quantized Diffusion Model for Text-to-Image Synthesis

CVPR 2022 1

Aggregated Contextual Transformations for High-Resolution Image Inpainting

arXiv 2021

StyleSwin: Transformer-based GAN for High-resolution Image Generation

styleswin-transformer-based-gan-for-high

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

cswin-transformer-a-general-vision-1