Mike Lewis

In-context Pretraining: Language Modeling Beyond Document Boundaries

arXiv 2023

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

arXiv 2023

Scaling Expert Language Models with Unsupervised Domain Discovery

arXiv 2023

Questions Are All You Need to Train a Dense Passage Retriever

arXiv 2022

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

arXiv 2022

Measuring and Narrowing the Compositionality Gap in Language Models

arXiv 2022

InCoder: A Generative Model for Code Infilling and Synthesis

arXiv 2022

Contrastive Decoding: Open-ended Text Generation as Optimization

arXiv 2022

Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

arXiv 2022

Nonparametric Masked Language Modeling

arXiv 2022

Improving Passage Retrieval with Zero-Shot Question Generation

arXiv 2022

Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

arXiv 2022

Coder Reviewer Reranking for Code Generation

arXiv 2022

8-bit Optimizers via Block-wise Quantization

8-bit-optimizers-via-block-wise-quantization-1

MetaICL: Learning to Learn In Context

NAACL 2022 7

Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation

train-short-test-long-attention-with-linear-1

DEMix Layers: Disentangling Domains for Modular Language Modeling

NAACL 2022 7