Zhangyang Wang

Enhance-A-Video: Better Generated Video for Free

arXiv 2025

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

arXiv 2025

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

arXiv 2025

Steepest Descent Density Control for Compact 3D Gaussian Splatting

CVPR 2025 1

MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models

arXiv 2025

LLMs Can Get "Brain Rot"!

arXiv 2025

SEAL: Steerable Reasoning Calibration of Large Language Models for Free

arXiv 2025

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

arXiv 2025

GradientStabilizer:Fix the Norm, Not the Gradient

arXiv 2025

Can Test-Time Scaling Improve World Foundation Model?

arXiv 2025

Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

arXiv 2025

LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning

arXiv 2025

REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

arXiv 2025

InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds

arXiv 2024

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

arXiv 2024

Large Spatial Model: End-to-end Unposed Images to Semantic 3D

arXiv 2024

LLaGA: Large Language and Graph Assistant

arXiv 2024

Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference

arXiv 2024

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

arXiv 2024

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

arXiv 2024

On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability

arXiv 2024

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

arXiv 2024

OpenBias: Open-set Bias Detection in Text-to-Image Generative Models

CVPR 2024 1

LoCoCo: Dropping In Convolutions for Long Context Compression

arXiv 2024

Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild

arXiv 2024

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

arXiv 2024

Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

arXiv 2024

Social Reward: Evaluating and Enhancing Generative AI through Million-User Feedback from an Online Creative Community

arXiv 2024

Principled Architecture-aware Scaling of Hyperparameters

arXiv 2024

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

CVPR 2025 1

APOLLO: SGD-like Memory, AdamW-level Performance

arXiv 2024

Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

arXiv 2024

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark

arXiv 2024

Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding

arXiv 2024

H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

arXiv 2023

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

ICCV 2023 1

Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers

arXiv 2023

Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer with Mixture-of-View-Experts

ICCV 2023 1

DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer

arXiv 2023

Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation

arXiv 2023

Compressing LLMs: The Truth is Rarely Pure and Never Simple

arXiv 2023

Physics-Driven Turbulence Image Restoration with Stochastic Refinement

ICCV 2023 1

Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights?

arXiv 2023

Towards Constituting Mathematical Structures for Learning to Optimize

arXiv 2023

The Emergence of Essential Sparsity in Large Pre-trained Models: The Weights that Matter

the-emergence-of-essential-sparsity-in-large

PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor

arXiv 2023

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS

arXiv 2023

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

CVPR 2024 1

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields

CVPR 2024 1

In-Context Learning Unlocked for Diffusion Models

in-context-learning-unlocked-for-diffusion

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

arXiv 2023

Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts

arXiv 2023

Robust Mixture-of-Expert Training for Convolutional Neural Networks

ICCV 2023 1

Safe and Robust Watermark Injection with a Single OoD Image

arXiv 2023

Equivariant Hypergraph Diffusion Neural Operators

arXiv 2022

Unified Visual Transformer Compression

unified-visual-transformer-compression

Neural Implicit Dictionary via Mixture-of-Expert Training

arXiv 2022

APP: Anytime Progressive Pruning

arXiv 2022

E^2TAD: An Energy-Efficient Tracking-based Action Detector

arXiv 2022

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model

ICCV 2023 1

NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360° Views

arXiv 2022

M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design

arXiv 2022

Auto-scaling Vision Transformers without Training

auto-scaling-vision-transformers-without

The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training

the-unreasonable-effectiveness-of-random

Sparse Training via Boosting Pruning Plasticity with Neuroregeneration

sparse-training-via-boosting-pruning-1

You are caught stealing my winning lottery ticket! Making a lottery ticket claim its ownership

NeurIPS 2021 12

Hyperparameter Tuning is All You Need for LISTA

NeurIPS 2021 12

DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models

dsee-dually-sparsity-embedded-efficient