Yizhi Li

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

arXiv 2026

InCoder-32B: Code Foundation Model for Industrial Scenarios

arXiv 2026

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

arXiv 2026

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

arXiv 2026

YuE: Scaling Open Foundation Models for Long-Form Music Generation

arXiv 2025

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

arXiv 2025

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

arXiv 2025

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

arXiv 2025

ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding

arXiv 2025

AutoMV: An Automatic Multi-Agent System for Music Video Generation

arXiv 2025

Re:Form -- Reducing Human Annotations in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

arXiv 2025

DocMMIR: A Framework for Document Multi-modal Information Retrieval

arXiv 2025

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

arXiv 2024

OmniBench: Towards The Future of Universal Omni-Language Models

arXiv 2024

ChatMusician: Understanding and Generating Music Intrinsically with LLM

arXiv 2024

Foundation Models for Music: A Survey

arXiv 2024

A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

arXiv 2024

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

arXiv 2024

ComposerX: Multi-Agent Symbolic Music Composition with LLMs

arXiv 2024

Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation

arXiv 2024

MIO: A Foundation Model on Multimodal Tokens

arXiv 2024

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

arXiv 2024

Pixel Sentence Representation Learning

arXiv 2024

LIME: Less Is More for MLLM Evaluation

arXiv 2024

MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models

arXiv 2024