MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

Authors :: Shayne Longpre
Yi Lu
Joachim Daiber
Source :: Transactions of the Association for Computational Linguistics, Vol 9, Pp 1389-1406 (2021)
Publication Year :: 2021
Publisher :: The MIT Press, 2021.
Abstract: AbstractProgress in cross-lingual modeling depends on challenging, realistic, and diverse evaluation sets. We introduce Multilingual Knowledge Questions and Answers (MKQA), an open- domain question answering evaluation set comprising 10k question-answer pairs aligned across 26 typologically diverse languages (260k question-answer pairs in total). Answers are based on heavily curated, language- independent data representation, making results comparable across languages and independent of language-specific passages. With 26 languages, this dataset supplies the widest range of languages to-date for evaluating question answering. We benchmark a variety of state- of-the-art methods and baselines for generative and extractive question answering, trained on Natural Questions, in zero shot and translation settings. Results indicate this dataset is challenging even in English, but especially in low-resource languages.1

Language :: English
ISSN :: 2307387X
Volume :: 9
Database :: Directory of Open Access Journals
Journal :: Transactions of the Association for Computational Linguistics
Publication Type :: Academic Journal
Accession number :: edsdoj.1aa1d5711eac4e1cb516e3f093d5238f
Document Type :: article
Full Text :: https://doi.org/10.1162/tacl_a_00433/108607/MKQA-A-Linguistically-Diverse-Benchmark-for

Full Text Access

Tools