Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

2025-02-21Code Available0· sign in to hype

Yi-Ling Chung, Aurora Cobo, Pablo Serna

Code Available — Be the first to reproduce this paper.

Code

github.com/Genaios/MultiSynFact
Officialnone★ 5

Abstract

Robust automatic fact-checking systems have the potential to combat online misinformation at scale. However, most existing research primarily focuses on English. In this paper, we introduce MultiSynFact, the first large-scale multilingual fact-checking dataset containing 2.2M claim-source pairs designed to support Spanish, German, English, and other low-resource languages. Our dataset generation pipeline leverages Large Language Models (LLMs), integrating external knowledge from Wikipedia and incorporating rigorous claim validation steps to ensure data quality. We evaluate the effectiveness of MultiSynFact across multiple models and experimental settings. Additionally, we open-source a user-friendly framework to facilitate further research in multilingual fact-checking and dataset generation.

Tasks

Dataset Generation Fact Checking Misinformation Translation

Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

Code

Abstract

Tasks

Reproductions