Pasquale Minervini

Neurosymbolic Diffusion Models

arXiv 2025

Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression

arXiv 2025

PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

arXiv 2025

Self-Training Large Language Models for Tool-Use Without Demonstrations

arXiv 2025

Inverse Scaling in Test-Time Compute

arXiv 2025

OpenSIR: Open-Ended Self-Improving Reasoner

arXiv 2025

Large language models surpass human experts in predicting neuroscience results

arXiv 2024

Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering

arXiv 2024

Analysing the Residual Stream of Language Models Under Knowledge Conflicts

arXiv 2024

Are We Done with MMLU?

arXiv 2024

DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations

arXiv 2024

Analysing The Impact of Sequence Composition on Language Model Pre-Training

arXiv 2024

A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression

arXiv 2024

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models

NeurIPS 2023 11

Parameter-Efficient Fine-Tuning of LLaMA for the Clinical Domain

arXiv 2023

Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference

arXiv 2023

SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations

arXiv 2023

Using Natural Language Explanations to Improve Robustness of In-context Learning

arXiv 2023