Yujiu Yang

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

arXiv 2026

ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

arXiv 2026

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

arXiv 2026

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

arXiv 2025

Shadow-FT: Tuning Instruct via Base

arXiv 2025

EpiCoder: Encompassing Diversity and Complexity in Code Generation

arXiv 2025

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

arXiv 2025

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

arXiv 2025

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

arXiv 2025

Generative Universal Verifier as Multimodal Meta-Reasoner

arXiv 2025

From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback

arXiv 2025

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

arXiv 2025

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

arXiv 2025

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

arXiv 2025

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

CVPR 2025 1

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

arXiv 2024

Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability

arXiv 2024

Rho-1: Not All Tokens Are What You Need

arXiv 2024

LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models

arXiv 2024

Taming Scalable Visual Tokenizer for Autoregressive Image Generation

ICCV 2025

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

arXiv 2024

HyperSeg: Towards Universal Visual Segmentation with Large Language Model

arXiv 2024

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment

arXiv 2024

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

arXiv 2024

RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models

arXiv 2024

Large Language Models Can Self-Improve in Long-context Reasoning

arXiv 2024

LLM2: Let Large Language Models Harness System 2 Reasoning

arXiv 2024

ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework

arXiv 2024

A Survey on the Honesty of Large Language Models

arXiv 2024

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

arXiv 2024

IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model

arXiv 2024

PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL

arXiv 2024

Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast

arXiv 2024

CriticBench: Benchmarking LLMs for Critique-Correct Reasoning

arXiv 2024

ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

arXiv 2024

A Thorough Examination of Decoding Methods in the Era of LLMs

arXiv 2024

Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training

arXiv 2024

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

arXiv 2023

StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

arXiv 2023

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

arXiv 2023

Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate

arXiv 2023

CoSeR: Bridging Image and Language for Cognitive Super-Resolution

CVPR 2024 1

TaleCrafter: Interactive Story Visualization with Multiple Characters

arXiv 2023

EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers

arXiv 2023

Exploring Human-Like Translation Strategy with Large Language Models

arXiv 2023

EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval

arXiv 2023

Assessor360: Multi-sequence Network for Blind Omnidirectional Image Quality Assessment

assessor360-multi-sequence-network-for-blind

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation

soc-semantic-assisted-object-cluster-for-1

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

arXiv 2023

D2Match: Leveraging Deep Learning and Degeneracy for Subgraph Matching

arXiv 2023

Question Answering as Programming for Solving Time-Sensitive Questions

arXiv 2023

Feature Expansion for Graph Neural Networks

arXiv 2023

Weight-Inherited Distillation for Task-Agnostic BERT Compression

arXiv 2023

MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment

arXiv 2022

Attentions Help CNNs See Better: Attention-based Hybrid Image Quality Assessment Network

arXiv 2022

Solving Math Word Problems via Cooperative Reasoning induced Language Models

arXiv 2022

MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model

CVPR 2023 1

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

arXiv 2022