Michael W. Mahoney

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

arXiv 2024

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

arXiv 2024

Squeezed Attention: Accelerating Long Context Length LLM Inference

arXiv 2024

An LLM Compiler for Parallel Function Calling

arXiv 2023

SqueezeLLM: Dense-and-Sparse Quantization

arXiv 2023

Speculative Decoding with Big Little Decoder

speculative-decoding-with-big-little-decoder

Constrained Optimization via Exact Augmented Lagrangian and Randomized Iterative Sketching

arXiv 2023

Learning Physical Models that Can Respect Conservation Laws

arXiv 2023

Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs

arXiv 2023

A Three-regime Model of Network Pruning

arXiv 2023

Squeezeformer: An Efficient Transformer for Automatic Speech Recognition

arXiv 2022

2022

I-BERT: Integer-only BERT Quantization

arXiv 2021

2021

Hessian-Aware Pruning and Optimal Neural Implant

arXiv 2021

2021

HAWQV3: Dyadic Neural Network Quantization

arXiv 2020

ZeroQ: A Novel Zero Shot Quantization Framework

zeroq-a-novel-zero-shot-quantization-1

PowerNorm: Rethinking Batch Normalization in Transformers

ICML 2020 1

ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning

arXiv 2020