Wei Sun

KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

arXiv 2025

Neural Brain: A Neuroscience-inspired Framework for Embodied Agents

arXiv 2025

FVQ: A Large-Scale Dataset and A LMM-based Method for Face Video Quality Assessment

arXiv 2025

Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

arXiv 2025

Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation

arXiv 2025

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

CVPR 2025 1

Deep Learning-Based Object Pose Estimation: A Comprehensive Survey

arXiv 2024

R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions?

arXiv 2024

Dual-Branch Network for Portrait Image Quality Assessment

arXiv 2024

API Pack: A Massive Multi-Programming Language Dataset for API Call Generation

arXiv 2024

LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models

arXiv 2024

AIS 2024 Challenge on Video Quality Assessment of User-Generated Content: Methods and Results

arXiv 2024

Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model

arXiv 2024

Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric

arXiv 2024

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

arXiv 2024

VQA$^2$: Visual Question Answering for Video Quality Assessment

arXiv 2024

GAIA: Rethinking Action Quality Assessment for AI-Generated Videos

arXiv 2024

THQA: A Perceptual Quality Assessment Database for Talking Heads

arXiv 2024

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps

arXiv 2023

AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment

arXiv 2023

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

CVPR 2024 1

Exploring the Naturalness of AI-Generated Images

arXiv 2023