Yiming Zhang

PhotoFlow: Agentic 3D Virtual Photography Missions

arXiv 2026

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

arXiv 2026

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

arXiv 2026

NbBench: Benchmarking Language Models for Comprehensive Nanobody Tasks

arXiv 2025

Reinforcement Learning in Vision: A Survey

arXiv 2025

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

arXiv 2025

Jointly Reinforcing Diversity and Quality in Language Model Generations

arXiv 2025

InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models

arXiv 2025

InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion

arXiv 2025

AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity

arXiv 2025

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

arXiv 2025

Model Merging Scaling Laws in Large Language Models

arXiv 2026

Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations

arXiv 2024

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

arXiv 2024

RankCLIP: Ranking-Consistent Language-Image Pretraining

ICCV 2025

Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

arXiv 2024

EFSA: Towards Event-Level Financial Sentiment Analysis

arXiv 2024

Forcing Diffuse Distributions out of Language Models

arXiv 2024