Jie Wu

AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

arXiv 2026

Enhancing Spatial Understanding in Image Generation via Reward Modeling

arXiv 2026

Towards Long-horizon Agentic Multimodal Search

arXiv 2026

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

arXiv 2026

Closing the Loop: Universal Repository Representation with RPG-Encoder

arXiv 2026

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

arXiv 2026

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

arXiv 2025

DanceGRPO: Unleashing GRPO on Visual Generation

arXiv 2025

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

arXiv 2025

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

arXiv 2025

OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

arXiv 2025

Step-Audio 2 Technical Report

arXiv 2025

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

arXiv 2025

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

arXiv 2025

Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model

arXiv 2025

EpiCoder: Encompassing Diversity and Complexity in Code Generation

arXiv 2025

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

arXiv 2024

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

arXiv 2024

IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model

arXiv 2024

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

arXiv 2024

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

arXiv 2024