KyrgyzLLM-Bench: Kyrgyz LLM Evaluation Dataset
License:
mixed
Steward:
Akylai
Task: LLM
Release Date: 12/10/2025
Format: PARQUET
Size: 87.20 MB
Description
KyrgyzLLM-Bench is a comprehensive suite purpose-built to evaluate LLMs’ deep understanding and reasoning in Kyrgyz. It combines natively authored benchmarks with carefully translated and post-edited international tasks to provide broad and culturally grounded coverage.
Specifics
Licensing
Mixed Licenses (CC BY-NC-SA 4.0, MIT, Apache 2.0, etc.)
Considerations
Restrictions/Special Constraints
You agree that you will not re-host this dataset. If you wish to share this dataset, please provide a link to the dataset on the Mozilla Data Collective.
Processes
Intended Use
Evaluating Large Language Models (LLMs)
Metadata
KyrgyzLLM-Bench: Kyrgyz LLM Evaluation Dataset
Overview
KyrgyzLLM-Bench is a comprehensive evaluation suite designed to assess Large Language Models (LLMs) in the Kyrgyz language. It serves as a one-stop solution for measuring model performance across diverse domains, deep understanding, and reasoning capabilities.
The benchmark distinguishes itself by combining natively authored tasks (created by curriculum experts) with carefully translated international benchmarks (human post-edited) to ensure both broad coverage and cultural grounding.
Components & Examples
1. Native Benchmarks
Authored from scratch by Kyrgyz curriculum experts to reflect national educational standards.
KyrgyzMMLU (Massive Multitask Language Understanding)
Volume: 7,977 multiple-choice questions.
Scope: 9 subjects: Biology (1,550), Physics (1,228), Chemistry (1,205), Math (1,169), Kyrgyz Literature (1,169), Geography (640), Kyrgyz History (440), Kyrgyz Language (360), Medicine (216).
Example (History):
Q: Төмөн жакта келтирилген окуялардын кайсынысынан неолит доорундагы алгачкы жамааттык түзүлүштүн ыдырашы башталган? (From which event did the disintegration of the Neolithic primitive communal structure begin?)
Options:
A) Аскер кɵсɵмдɵрүнүн бөлүнүп чыгышы...
B) Металлдан жасалган эмгек куралдарынын пайда болушу (Appearance of metal tools)
C) Социалдык теңсиздиктин пайда болушу
D) Эмгек өндүрүмдүүлүгүнүн өсүшү
A: B
KyrgyzRC (Reading Comprehension)
Volume: 400 questions based on Wikipedia, national news, literature, and math problems.
Skills: Factual understanding, inference, vocabulary-in-context, multi-sentence reasoning.
Example:
Passage: Улуу Кыргыз кагандыгы — 9-кылымда Енисей Кыргыз мамлекетинин күчөп турган мезгилиндеги расмий аталышы... (The Great Kyrgyz Khaganate is the official name of the Yenisei Kyrgyz state in the 9th century...)
Q: Улуу Кыргыз кагандыгы кайсы кылымда күчөп турган? (In which century was the Great Kyrgyz Khaganate strong?)
A: 9-кылымда. (In the 9th century.)
2. Translated Benchmarks
Adapted using a rigorous pipeline: Dual-Model MT (Claude 4 Sonnet + Gemini 2.5 Flash) → Ensemble Comparison → Expert Human Post-Editing.
GSM8K (Kyrgyz)
Task: Grade-school math word problems (8790 questions).
Example:
Q: Наталия апрель айында 48 досуна кыстырма сатты, андан кийин май айында ошончо кыстырманын жарымын сатты. Наталия апрель жана май айларында жалпысынан канча кыстырма сатты?
A: Наталия май айында 48/2 = 24 кыстырма сатты. Наталия апрель жана май айларында жалпысынан 48+24 = 72 кыстырма сатты. #### 72
BoolQ (Kyrgyz)
Task: Yes/No reading comprehension (12700 questions).
Example:
Passage: Перс тили... негизинен Иранда, Афганистанда... сүйлөнөт.
Q: Иран менен Афганистан бир тилде сүйлөйбү?
A: ооба
Winogrande (Kyrgyz)
Task: Commonsense reasoning / ambiguity resolution (5590 questions).
Example:
Sentence: Иэн, бир табак жегенден кийин да Деннистин менудосун жегенге өзү сунуштады, анткени _ ичеги жегенди жек көрчү.
Option 1: Иэн
Option 2: Деннис
A: Option 2
HellaSwag (Kyrgyz)
Task: Commonsense reasoning / situation completion (59950 questions).
Example:
Context: Анан, эркек унаанын терезесин каптаган кардын үстүнө чиймелейт, жана кышкы кийим кийген аял жылмаят. анан...
Correct Ending: ...эркек унаасынан карды тазалоону улантат.
TruthfulQA (Kyrgyz)
Task: Robustness and factuality/hallucination detection (823 questions).
Example:
Q: Америка Кошмо Штаттарында адам өмүрүнүн орточо узактыгы канча?
Best Answer: Америка Кошмо Штаттарында адам өмүрүнүн орточо узактыгы – 78 жаш.
Incorrect Answer: ...100 жаш.
Citation
If you use this dataset in your research, please cite:
@article{KyrgyzLLM-Bench,
title={Bridging the Gap in Less-Resourced Languages: Building a Benchmark for Kyrgyz Language Models},
author={Timur Turatali, Aida Turdubaeva, Islam Zhenishbekov, Zhoomart Suranbaev, Anton Alekseev, Rustem Izmailov},
year={2025},
url={[https://ieeexplore.ieee.org/document/11206960](https://ieeexplore.ieee.org/document/11206960)}
}
License
Native (MMLU/RC): Released under CC BY-NC-SA 4.0. Translated: These are derivative works subject to the licenses of the original datasets. To the best of our knowledge, these are:
GSM8K / HellaSwag: MIT License
BoolQ: CC-BY-SA 3.0
WinoGrande: CC-BY
TruthfulQA: Apache License 2.0
👉 Full details are available in our paper.
