Qi Tian

HunyuanVideo 1.5 Technical Report

arXiv 2025

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

arXiv 2025

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

arXiv 2025

HunyuanImage 3.0 Technical Report

arXiv 2025

Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

arXiv 2025

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

arXiv 2025

PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards

arXiv 2025

GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting

arXiv 2024

Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

arXiv 2024

Towards 3D Molecule-Text Interpretation in Language Models

arXiv 2024

HunyuanVideo: A Systematic Framework For Large Video Generative Models

arXiv 2024

UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding

arXiv 2024

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

CVPR 2024 1

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models

CVPR 2024 1

SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval

arXiv 2023

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

arXiv 2023

A Bi-Step Grounding Paradigm for Large Language Models in Recommendation Systems

arXiv 2023

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

CVPR 2024 1

Probabilistic Tree-of-thought Reasoning for Answering Knowledge-intensive Complex Questions

arXiv 2023

Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation

ICCV 2023 1

ControlVideo: Training-free Controllable Text-to-Video Generation

arXiv 2023

Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast

arXiv 2022

2022

Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration

CVPR 2023 1

2022

DocScanner: Robust Document Image Rectification with Progressive Learning

arXiv 2021

Visformer: The Vision-friendly Transformer

ICCV 2021 10

Rectifying the Shortcut Learning of Background for Few-Shot Learning

NeurIPS 2021 12

Large-Scale Spatio-Temporal Person Re-identification: Algorithms and Benchmark

arXiv 2021