Greg Durrett

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

arXiv 2025

CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation

arXiv 2025

CLEVER: A Curated Benchmark for Formally Verified Code Generation

arXiv 2025

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

arXiv 2025

PropMEND: Hypernetworks for Knowledge Propagation in LLMs

arXiv 2025

MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents

arXiv 2024

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

arXiv 2024

SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

arXiv 2024

D2PO: Discriminator-Guided DPO with Response Evaluation Models

arXiv 2024

Learning to Refine with Fine-Grained Natural Language Feedback

arXiv 2024

LoFiT: Localized Fine-tuning on LLM Representations

arXiv 2024

WiCE: Real-World Entailment for Claims in Wikipedia

arXiv 2023

A Long Way to Go: Investigating Length Correlations in RLHF

arXiv 2023

Using Natural Language Explanations to Rescale Human Judgments

arXiv 2023

X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs

arXiv 2023

Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors

arXiv 2022

Complementary Explanations for Effective In-Context Learning

arXiv 2022

News Summarization and Evaluation in the Era of GPT-3

arXiv 2022

The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning

arXiv 2022