Yu Li

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

arXiv 2026

Mixture-of-Depths Attention

arXiv 2026

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

arXiv 2026

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

arXiv 2026

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

arXiv 2026

Seed1.5-VL Technical Report

arXiv 2025

Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition

arXiv 2025

Rethinking Text-based Protein Understanding: Retrieval or LLM?

arXiv 2025

CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

arXiv 2025

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

arXiv 2025

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

arXiv 2025

CTR-Driven Advertising Image Generation with Multimodal Large Language Models

arXiv 2025

MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer

arXiv 2025

AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search

arXiv 2025

One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs

arXiv 2025

GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

arXiv 2025

ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

arXiv 2025

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

arXiv 2025

Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

arXiv 2025

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

arXiv 2025

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

arXiv 2025

MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

arXiv 2025

A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

arXiv 2025

VidText: Towards Comprehensive Evaluation for Video Text Understanding

arXiv 2025

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

arXiv 2025

Self-Adjust Softmax

arXiv 2025

MedConv: Convolutions Beat Transformers on Long-Tailed Bone Density Prediction

arXiv 2025

AlphaAdam:Asynchronous Masked Optimization with Dynamic Alpha for Selective Updates

arXiv 2025

A Preview of XiYan-SQL: A Multi-Generator Ensemble Framework for Text-to-SQL

arXiv 2024

GPAvatar: Generalizable and Precise Head Avatar from Image(s)

arXiv 2024

LIONs: An Empirically Optimized Approach to Align Language Models

arXiv 2024

Protein Multimer Structure Prediction via Prompt Learning

arXiv 2024

MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension

arXiv 2024

PRESTO: Progressive Pretraining Enhances Synthetic Chemistry Outcomes

arXiv 2024

How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models

arXiv 2024

Effective Whole-body Pose Estimation with Two-stages Distillation

arXiv 2023

A Survey of Reasoning with Foundation Models

arXiv 2023

One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

CVPR 2023 1

From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels

ICCV 2023 1

Progressive-Hint Prompting Improves Reasoning in Large Language Models

https-arxiv-org-abs-2304-09797

InstructMol: Multi-Modal Integration for Building a Versatile and Reliable Molecular Assistant in Drug Discovery

arXiv 2023

Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family

arXiv 2023

Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence Alignment Generation

arXiv 2023

Lyra: Orchestrating Dual Correction in Automated Theorem Proving

arXiv 2023