Lin Chen

VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

arXiv 2026

SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

arXiv 2026

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

arXiv 2026

SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation

arXiv 2026

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

arXiv 2026

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

arXiv 2026

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

arXiv 2025

Seed1.5-VL Technical Report

arXiv 2025

MigrationBench: Repository-Level Code Migration Benchmark from Java 8

arXiv 2025

FlowRL: Matching Reward Distributions for LLM Reasoning

arXiv 2025

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models

arXiv 2025

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

arXiv 2025

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

arXiv 2025

I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search

arXiv 2025

V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction

arXiv 2025

Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild

arXiv 2025

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

arXiv 2025

Open-Sora Plan: Open-Source Large Video Generation Model

arXiv 2024

2024

Are We on the Right Way for Evaluating Large Vision-Language Models?

arXiv 2024

2024

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

arXiv 2024

2024

FreeDrag: Feature Dragging for Reliable Point-based Image Editing

CVPR 2024 1

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

arXiv 2023

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

arXiv 2023

Disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement

arXiv 2023