Common Voice Spontaneous Speech 2.0 - Gorani
License:
CC0-1.0
Steward:
Common Voice
Task: ASR
Release Date: 12/5/2025
Format: MP3
Size: 224.46 MB
Share
Description
A collection of spontaneous spoken phrases in Gorani.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Gorani — Gorani (hac)
This datasheet has been generated automatically, we would love to include more information, if you would like to help out, get in touch!
This datasheet is for version 2.0 of the the Mozilla Common Voice Spontaneous Speech dataset
for Gorani (hac). The dataset contains 421 clips representing 12 hours of recorded
speech (1 hours validated) from 19 speakers.
Transcriptions
Prompts:
39Duration:
11:11:31 [h:m:s]Avg. Transcription Len:
602Avg. Duration:
95.7[s]Valid Duration:
1334.844[s]Total hours:
11.19[h]Valid hours:
0.37[h]
Samples
Questions
There follows a randomly selected sample of questions used in the corpus.
ئا رۆ تەعتیتیلیە کە جە گرذی فرەتەر حەزش چنە کەری کاما و چی؟
چ گژوو گیڤاڤێڤفرەتەر گنۆ ڤەروو چەمات؟
تۆ چەنی رێلەکس کەری و مەژگت مسنیەڤە؟
چا یاگێ کە مژیڤی ئاڤووهەڤا چەینا؟
حەز بە چێڤی تایبەتی کەری دلێ رەفێقەکەیتەنە؟
Responses
There follows a randomly selected sample of transcribed responses from the corpus.
جمعە پەی گێڵای
ئەی گژوو گیاڤڤ چێگە فرە گنۆ ڤەروو چەما بە تایبەت دمەو ڤەهاری ئیسە کە زمسانا مەگەر فەقەت یاگێڤەچەمەنێڤ بۆ ڤینیش، ئێێێ چەمەنەکێچ ئەکسەرەن سەرشا گێرتێنێ پەی ئینەیە مەخلۆق نەلا سەرشانە جە زمسانێنە وەلی ئێ ئێێێ گژووگیڤاڤ فرەتەر جە ڤەهارەنە و جە هامنەنە و جە ئەڤایێلوو پاییزیەنە هەن و ئی گژووگیڤاڤیجە مەعموولەن گژووگیڤاڤێڤی فرەتەر چەمەنا بەڵام کوچێڤ جە شارەکەی بلی بەر ئێ ئێێێ گیڤاڤانێڤ تەرێ هەنێ ئێ کە ئێ مەخسوسسو ئی مەنتەقەیەنێ تایبەت بە دەورووبەروو ستۆکهۆلمیەنێ و با ڤاچمێ دلێڕاسەو سوێدی ئە ئە کە درەختایڤێنێ کە ئەئە پنەشە ماچا گرۆن دڤێ جۆرێ درەختە ئێمە هەرڤیما ئەئە بە هەرڤیشا ماچمێ کاج بەڵام چێگە دڤێ نۆحێ درەختێنێ کاجانێڤەنێ کە پڕ پەشتێنێ و پەی درەختوو کریسمەسی بەکارشا بەرا وەختێڤ گولالێنێ ئانێنێ کە پنەشا ماچا گرۆن وە کاجانێڤ تەرێ هەنێ کە فرە بەرزێنێ و ملا سەر و گەڵاکیشا کەمێنێ و هەڤە درەختوو خۆرماڤا مشا ئا گی گی دڤە جۆر کاجە فرە فرێنێ و دمەو ئانەیە سوورەچناریچ فرە فرەن ئێ ئێ سوورەچنارێ فرێ هەنێ ئینە ئێ فرەتر گژووگیڤاڤوو ئی مەنتەقەیەنێ
وەڵا لا ئێمەڤە فرەتەر چێڤێڤ کە ڤیرما جە قەذیمەنە وەختێڤ یۆ فرە مانیۆ کاری فرەش کەرذەن، وەختێڤ ملیەڤە یانە کرژ ماچی دابا چەیێڤ بوەروو. ئاچەیە فرە فرە ئێێ یۆی مسنۆڤە. ئێتر یۆ فرە مسیۆڤە پا چەیە. وەلی ئێسە ئاننە نەمەنەن ئیسە ماچا دابا قاڤێڤ بوەروو ئەڵبەتە قاڤە ساعبانێن کە ویشەڤە ئەجۆ ئێێ هینێذ کەرۆڤە ئێتر وەرمذ مەمەنۆ. تا ئێێێ هینێڤی بەشاشە بیەڤە. من وێم دلی ئاڤێنە وەختێڤ ملوو مەلێ کەروو دلێ ئاڤێنە فرە وەششا فرە حەزش پنە کەروو. یا رانە لڤەی، رانە لڤەیچ وەشا. یا مەسەڵەن تەماشدەو فیلمی کەروو. فیلێڤی وەش، ئانە فرە وەشا. ئێ ءیت عەر ئانە ئێ چەیێڤ بوەری قاڤێڤ بوەری ئەڵبەتە قاڤە چنی تیکێڤ کەیکێ بوەری فرە وەشا واقێحەن مسیێڤە. بلیەنە دلێ مڵکێڤی یا ئەگەر، یا بلی بلی یاگێڤە کە گوڵوو گوڵزار بۆ. ئانە فرە وەشا مسیەیەڤە واقێعەن
وەڵآ چی یاگێنە کە من مژیڤوو ئا هەشتا دەرسەذێ وەختی ڤارانا، سەذا، تاریکا ئێتر ئێ ئێ ڤا هەن، ئەڤووهەڤاش خاس نیا، سەوزا فرە سەوزا ئی وەڵاتە چوون هەمیشە ڤاران ڤارۆ وەلیمکەتەی رۆجیار نیا رۆجیار فرە کەما گەرما نیا هامنێنە رەنگا گرذووگرذەڤە مانگێڤە گەرم بۆ ئاذیچ فرە نا ئیتر ئاڤووهەڤاش وەش نیا وەڵا ئاڤووهەڤاش سەرذا وشکا، ئتر تەمەنە، ئتر یۆ هۆرزۆڤە ساعبانەی تاریکا ئێ ئاڤووهەڤاش سەرذا ئێ ئێتر یۆ تەمیۆرە. پسە لا ویما نیا
بەنەزەرەم چێڤێ فرێ هەنێ کە یەک نەفەری، یەک نەفەر ئەگەر باش ئا یەک نەفەرە بۆ تایبەت یانێڤ عەز کەری رەفێقەکەتەنە ئا چێڤێ با. من فرە حەز کەروو مەسەڵەن ئەگەر کەسێڤ رەفێقما یا رەفێقەمەنە موهێم نیا پیا یا ژەنی ئینە کە فەقەت رەفێقوو دەورانی وەشی نەبۆ رەفێقوو دەورانوو ناوەشیچ بۆ. ئەگەر موشکێڵێڤەم هەنە ئەگەر کەموو کەسریێڤم هەن ئێننە ئێتمینانم بۆ پنەش ئێننە پەرمووش پۆرە، ئینە فرە مۆهێما ئێننە پەرموو ئا تارەفیەرە کە ئیسە یا زەنگەش پەی دەو یا بلوو لاش ڤاچوو فڵانەکەس من ئی موشکێڵەمە هەنە، کومەکم کەرە وە ئا تەرەفە دەریغ نەکەرۆ چوون من وێم پاسە کەروو ئەگەر رەفێقەم یا رەفێقەکێم بەی لام وو چێڤێڤش گەرەک بۆ نیازش بۆ تا یاگێ پنەم کریۆ، نا مەڤاچوو ئینە فرە موهێمما عەز کەروو رەفێقەکامەنە بۆ. یۆ ئینەیچە کە هین بۆ ئێ ئێ یۆ ئینەیچە کە ئێنسانێڤ نەبۆ کە رووبەڕوو چێڤێڤ ڤاچۆ کە رووبەڕوو چێڤێڤ ڤاچۆ پەشتەسەر چێڤێڤ تەر ڤاچۆ یانێڤ دڤە روو نەبۆ ئینە فرە مۆهێما ئینە پێم فرە مۆهێمما کە رەفێقەکێم دڤە روو نەبا وە کەسێڤ کە دۆڕوو بۆ دڤە ڕوو بۆ من ئەسڵەن مەتاڤوو چنیش بەر بەروو ئەسڵەن مەتاڤوو نیشانە دەو کە ئێ ئێ موهێم نیە، یانێڤ ئەگەر بەی کەسێڤ، دڤە روو بۆ وە من وەشم نەی چنەش، حەتمەنی حەتمەن سوورەتمەنە نیشانە مذۆ کە چێڤێڤ ئێ ئێ چێڤێڤ دروس نیا چی هینەنە چی رابێتەنە. یا مسەڵەن درۆزن نەبۆ، کەسێڤ بۆ کە ئێتر ئێعتمادذ پنەش بۆ. یانێڤ تۆ ئەگە ئێ سڕێڤەذ بۆ، رازێڤەذ بۆ کە نەتاڤی ڤاچیش بە گرکەسی، تۆ بتاڤی ڤاچیش پا رەفێقەیتە یا پا رەفێقێتە. ئینە ئینە ئێ گرینگا ئینە موهێما عەز کەروو ئی ئی ئێێ ئی خسڵەتێشە با. رەفێقەم، ئەگەر نەباش فکر مەکەروو بتاڤوو ئێ چنی کەسێڤی کە ئینیشە نەبا راسگوو نەبۆ ئێ درۆزن بۆ دڤە روو بۆ مەتاڤوو بوو رەفێقە هیچوەخت
Fields
Each row of a tsv file represents a single audio clip, and contains the following information:
client_id- hashed UUID of a given useraudio_id- numeric id for audio fileaudio_file- audio file nameduration_ms- duration of audio in millisecondsprompt_id- numeric id for promptprompt- question for usertranscription- transcription of the audio responsevotes- number of people that who approved a given transcriptage- age of the speaker1gender- gender of the speaker1language- language namesplit- for data modelling, which subset of the data does this clip pertain tochar_per_sec- how many characters of transcription per second of audioquality_tags- some automated assessment of the transcription--audio pair, separated by|transcription-length- character per second under 3 characters per secondspeech-rate- characters per second over 30 characters per secondshort-audio- audio length under 2 secondslong-audio- audio length over 30 seconds
Get involved!
Community links
Contribute
Acknowledgements
Funding
This dataset was partially funded by the Open Multilingual Speech Fund managed by Mozilla Common Voice.
Licence
This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.
Footnotes
For a full list of age, gender, and accent options, see the demographics spec. These will only be reported if the speaker opted in to provide that information. ↩ ↩2