Heng Wang

Kimi-VL Technical Report

arXiv 2025

Cosmos World Foundation Model Platform for Physical AI

arXiv 2025

Step-DeepResearch Technical Report

arXiv 2025

BannerAgency: Advertising Banner Design with Multimodal LLM Agents

arXiv 2025

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

arXiv 2025

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

arXiv 2025

Reward Shaping to Mitigate Reward Hacking in RLHF

arXiv 2025

OpenCUA: Open Foundations for Computer-Use Agents

arXiv 2025

The Collapse of Patches

arXiv 2025

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

arXiv 2025

CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

arXiv 2025

DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection

arXiv 2024

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images

arXiv 2024

Fast Prompt Alignment for Text-to-Image Generation

arXiv 2024

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

arXiv 2024

Autoregressive Pretraining with Mamba in Vision

arXiv 2024

Gotta Hear Them All: Sound Source Aware Vision to Audio Generation

arXiv 2024

Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos

arXiv 2023

V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models

arXiv 2023

Can Language Models Solve Graph Problems in Natural Language?

NeurIPS 2023 11

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?

ICCV 2023 1

Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens

arXiv 2023

Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion

arXiv 2023