Marcella Cornia

Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives

arXiv 2025

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

arXiv 2025

LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning

arXiv 2025

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

arXiv 2026

RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors

arXiv 2025

Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation

ICCV 2025

Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities

arXiv 2024

Trends, Applications, and Challenges in Human Attention Modelling

arXiv 2024

Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering

CVPR 2025 1

Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing

arXiv 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization

arXiv 2024

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues

arXiv 2024

Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images

arXiv 2024

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

arXiv 2023

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

arXiv 2023

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

ICCV 2023 1

With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning

ICCV 2023 1