Jian Zhang

MAXS: Meta-Adaptive Exploration with LLM Agents

arXiv 2026

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

arXiv 2026

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

arXiv 2026

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

arXiv 2025

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

arXiv 2025

DreamO: A Unified Framework for Image Customization

arXiv 2025

MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

arXiv 2025

MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

arXiv 2025

Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning

arXiv 2025

Quantitative Analysis of Performance Drop in DeepSeek Model Quantization

arXiv 2025

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

arXiv 2025

GenCompositor: Generative Video Compositing with Diffusion Transformer

arXiv 2025

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning

arXiv 2025

Fitness aligned structural modeling enables scalable virtual screening with AuroBind

arXiv 2025

MUR: Momentum Uncertainty guided Reasoning for Large Language Models

arXiv 2025

Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis

arXiv 2025

Fully-Geometric Cross-Attention for Point Cloud Registration

arXiv 2025

Starling-7B: Improving Helpfulness and Harmlessness with RLAIF

ICML

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

CVPR 2025 1

InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds

arXiv 2024

Adversarial Diffusion Compression for Real-World Image Super-Resolution

CVPR 2025 1

Invertible Diffusion Models for Compressed Sensing

arXiv 2024

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

CVPR 2024 1

Large Spatial Model: End-to-end Unposed Images to Semantic 3D

arXiv 2024

Retrieval Augmented Instruction Tuning for Open NER with Large Language Models

arXiv 2024

Hybrid Fourier Score Distillation for Efficient One Image to 3D Object Generation

arXiv 2024

RelayGS: Reconstructing Dynamic Scenes with Large-Scale and Complex Motions via Relay Gaussians

arXiv 2024

FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

arXiv 2024

BadEdit: Backdooring large language models by model editing

arXiv 2024

Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization

arXiv 2024

NetInfoF Framework: Measuring and Exploiting Network Usable Information

arXiv 2024

On the Tool Manipulation Capability of Open-source Large Language Models

arXiv 2023

A Unified Continual Learning Framework with General Parameter-Efficient Tuning

ICCV 2023 1

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

arXiv 2023

Unlimited-Size Diffusion Restoration

arXiv 2023

AnimateZero: Video Diffusion Models are Zero-Shot Image Animators

arXiv 2023

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

ICCV 2023 1

Implicit Neural Representation for Cooperative Low-light Image Enhancement

ICCV 2023 1

DomainAdaptor: A Novel Approach to Test-time Adaptation

ICCV 2023 1

EFLNet: Enhancing Feature Learning for Infrared Small Target Detection

arXiv 2023

Generalizable Decision Boundaries: Dualistic Meta-Learning for Open Set Domain Generalization

ICCV 2023 1