Shiji Song

EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance

CVPR 2025 1

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

CVPR 2025 1

MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation

arXiv 2025

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

arXiv 2024

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

arXiv 2024

Bridging the Divide: Reconsidering Softmax and Linear Attention

arXiv 2024

Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators

arXiv 2024

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment

CVPR 2025 1

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

arXiv 2024

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

arXiv 2024

DAT++: Spatially Dynamic Vision Transformer with Deformable Attention

arXiv 2023

Agent Attention: On the Integration of Softmax and Linear Attention

arXiv 2023

Adaptive Rotated Convolution for Rotated Object Detection

ICCV 2023 1

Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels

arXiv 2023

Dynamic Perceiver for Efficient Visual Recognition

ICCV 2023 1

FLatten Transformer: Vision Transformer using Focused Linear Attention

ICCV 2023 1

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

CVPR 2024 1

Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning

train-once-get-a-family-state-adaptive