Chenghua Lin

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

arXiv 2025

A Survey on Latent Reasoning

arXiv 2025

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

arXiv 2025

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

arXiv 2025

Re:Form -- Reducing Human Annotations in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

arXiv 2025

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

arXiv 2025

Does Table Source Matter? Benchmarking and Improving Multimodal Scientific Table Understanding and Reasoning

arXiv 2025

Tougher Text, Smarter Models: Raising the Bar for Adversarial Defence Benchmarks

arXiv 2025

DocMMIR: A Framework for Document Multi-modal Information Retrieval

arXiv 2025

COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values

arXiv 2025

EvolvTrip: Enhancing Literary Character Understanding with Temporal Theory-of-Mind Graphs

arXiv 2025

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

arXiv 2025

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

arXiv 2024

OmniBench: Towards The Future of Universal Omni-Language Models

arXiv 2024

ChatMusician: Understanding and Generating Music Intrinsically with LLM

arXiv 2024

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

arXiv 2024

Can MLLMs Understand the Deep Implication Behind Chinese Images?

arXiv 2024

I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm

arXiv 2024

Pixel Sentence Representation Learning

arXiv 2024

LIME: Less Is More for MLLM Evaluation

arXiv 2024

MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models

arXiv 2024

Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework

arXiv 2024

Disentangling Preference Representation and Text Generation for Efficient Individual Preference Alignment

arXiv 2024

SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation

arXiv 2024

Foundation Models for Music: A Survey

arXiv 2024

A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

arXiv 2024

Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation

arXiv 2024

Evaluating Large Language Models for Generalization and Robustness via Data Compression

arXiv 2024

ComposerX: Multi-Agent Symbolic Music Composition with LLMs

arXiv 2024

Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation

arXiv 2024

Compressing Context to Enhance Inference Efficiency of Large Language Models

arXiv 2023

LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction

arXiv 2023

Chinese Open Instruction Generalist: A Preliminary Release

arXiv 2023

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

arXiv 2023

Effective Distillation of Table-based Reasoning Ability from LLMs

arXiv 2023

How to Determine the Most Powerful Pre-trained Language Model without Brute Force Fine-tuning? An Empirical Survey

arXiv 2023

Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information

arXiv 2023

Improving Medical Dialogue Generation with Abstract Meaning Representations

arXiv 2023

DisCo: Distilled Student Models Co-training for Semi-supervised Text Mining

arXiv 2023

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

arXiv 2023