Yulia Tsvetkov

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

arXiv 2025

Medical Hallucinations in Foundation Models and Their Impact on Healthcare

arXiv 2025

Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning

arXiv 2025

Spurious Rewards: Rethinking Training Signals in RLVR

arXiv 2025

PrefPalette: Personalized Preference Modeling with Latent Attributes

arXiv 2025

Don't Throw Away Your Pretrained Model

arXiv 2025

MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

arXiv 2025

BLAB: Brutally Long Audio Bench

arXiv 2025

Tuning Language Models by Proxy

arXiv 2024

Modular Pluralism: Pluralistic Alignment via Multi-LLM Collaboration

arXiv 2024

Stumbling Blocks: Stress Testing the Robustness of Machine-Generated Text Detectors Under Attacks

arXiv 2024

Do Membership Inference Attacks Work on Large Language Models?

arXiv 2024

DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection

arXiv 2024

MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning

arXiv 2024

Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only

arXiv 2024

Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs

arXiv 2024

Can Language Models Solve Graph Problems in Natural Language?

NeurIPS 2023 11

Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models

arXiv 2023

Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting

arXiv 2023

From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models

arXiv 2023

Assessing Language Model Deployment with Risk Cards

arXiv 2023

KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models

arXiv 2023