Preslav Nakov

Qorgau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts

arXiv 2025

Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts

arXiv 2025

GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human

arXiv 2025

UrduFactCheck: An Agentic Fact-Checking Framework for Urdu with Evidence Boosting and Benchmarking

arXiv 2025

Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification

arXiv 2024

OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs

arXiv 2024

Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

arXiv 2024

OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs

arXiv 2024

ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic

arXiv 2024

M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection

arXiv 2024

LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection

arXiv 2024

Semantic Ranking for Automated Adversarial Technique Annotation in Security Text

arXiv 2024

From Multiple-Choice to Extractive QA: A Case Study for English and Arabic

arXiv 2024

Exploring Language Model Generalization in Low-Resource Extractive QA

arXiv 2024

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

arXiv 2024

FIRE: Fact-checking with Iterative Retrieval and Verification

arXiv 2024

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

arXiv 2024

Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

arXiv 2023

LLM360: Towards Fully Transparent Open-Source LLMs

arXiv 2023

DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of Machine-Generated Text

arXiv 2023

TOP-Training: Target-Oriented Pretraining for Medical Extractive Question Answering

arXiv 2023

Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers

arXiv 2023

M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection

arXiv 2023

bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark

arXiv 2023