Tao Chen

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

arXiv 2026

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

arXiv 2026

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

arXiv 2026

OmniCaptioner: One Captioner to Rule Them All

arXiv 2025

Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

arXiv 2025

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

arXiv 2025

Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

arXiv 2025

Medal S: Spatio-Textual Prompt Model for Medical Segmentation

arXiv 2025

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

arXiv 2025

PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

arXiv 2025

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

arXiv 2024

One-Shot Learning for Pose-Guided Person Image Synthesis in the Wild

arXiv 2024

Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression

CVPR 2024 1

Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models

arXiv 2024

Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy

arXiv 2024

MeshXL: Neural Coordinate Field for Generative 3D Foundation Models

arXiv 2024

MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies

arXiv 2024

MotionGPT: Human Motion as a Foreign Language

NeurIPS 2023 11

ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation

arXiv 2023

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning

arXiv 2023

Performance-aware Approximation of Global Channel Pruning for Multitask CNNs

arXiv 2023

M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts

arXiv 2023

MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples

arXiv 2023

StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

arXiv 2023

Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

michelangelo-conditional-3d-shape-generation

Make-A-Character: High Quality Text-to-3D Character Generation within Minutes

arXiv 2023

QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement Learning with Direct Thrust Control

arXiv 2023