Common Voice Spontaneous Speech 3.0 - Pashto
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 3/22/2026
Format: MP3
Size: 195.14 MB
Share
Description
A collection of spontaneous responses to questions in Pashto (پښتو).
Specifics
Considerations
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
پښتو — Pashto (ps)
This datasheet is for sps-corpus-3.0-2026-03-09 of the Mozilla Common Voice Spontaneous Speech dataset for Pashto [پښتو - ps]. The dataset contains 827 clips representing 10.24 hours of recorded speech (0.59 hours validated) from 68 speakers.
Data splits for modelling
The dataset clips are categorised by transcription status and training-set assignment. The following tables summarise the distribution.
Audio clips
| Bucket | Clips | % |
|---|---|---|
| Transcribed & Validated | 85 | 10.3% |
| Transcribed & Pending | 13 | 1.6% |
| Not transcribed | 729 | 88.1% |
Training splits
| Bucket | Clips | % |
|---|---|---|
| Train | 0 | 0.0% |
| Dev | 0 | 0.0% |
| Test | 0 | 0.0% |
| Unassigned | 827 | 100.0% |
Training split coverage: 0 of 85 transcribed & validated clips (0.0%)
Transcriptions
Transcription status
| Bucket | Clips | % |
|---|---|---|
| Validated | 85 | 86.7% |
| Pending | 13 | 13.3% |
| Edited | 31 | 31.6% |
Samples
Questions
There follows a randomly selected sample of questions used in the corpus.
د چای څښل زموږ د کلتور یوه لویه برخه ده، ستاسو په نظر تور چای د بنډار لپاره ښه دی که شین چای؟ ولې؟
ځیني خلک د غواګانو فارمونه جوړوي، نور بیا د پسونو او یا چرګانو ستاسو په اند کوم یې ډیره ګټه کوي؟
زموږ په ټولنه کي ولي خلګ تعليم ته توجه نکوي ؟
ستا نوم څه دی ؟
د "جرګې" سیستم څنګه کار کوي او ولې خلک په محکمو کې د دعوې پر ځای جرګو ته ترجیح ورکوي؟
Responses
There follows a randomly selected sample of transcribed responses from the corpus.
د سهار هوا ډېره پاکه ده. موږ د چای څښلو لپاره ناست وو. دغه کتاب د لوستلو لپاره ګټور دی. کابل د افغانستان مشهور ښار دی. زموږ هېواد ډېر لوړ غرونه لري. هلکان په میدان کې لوبې کوي. نجونې هره ورځ ښوونځي ته ځي. د سین پر غاړه شنه واښه شنه شوي. نن هوا لږ وریځ او سړه ده. زه له خپل ګران وطن سره مینه لرم. ډوډۍ په تنور کې پخه شوې ده. اوبه د انسان د ژوند لپاره اړینې دي. مور مې ماشومانو ته کیسه کوي. د شپې له خوا په اسمان کې ستوري ځلیږي. بزګران په خپلو پټیو کې کار کوي. موږ ټول باید تل رښتیا ووایو. درواغ ویل د انسان اعتبار له منځه وړي. علم زده کول انسان ته رڼا ورکوي. د پسرلي د ګلونو بوی ډېر ښه دی. ژمی راغی او هوا ډېره سړه شوه. پسرلی د کال ډېر ښکلی فصل دی. موږ په خپل هېواد کې سوله غواړو. روغتون ته نږدې لوی درملتون شته. بازار نن د خلکو ډېره ګڼه ګوڼه لري. سپین موټر په سړک روان دی. الوتکه په لوړه هوا کې الوتنه کوي. زه دلته د خپل ملګري په تمه یم. د هغه خبرې ماته په زړه پورې دي. موږ باید د خپلو مشرانو درناوی وکړو. کوچنیان باید له مور او پلار مینه وګوري. نن مې په دفتر کې ډېر کارونه وکړل. د غره سر په سپینه واوره پوښل شوی. سیندونه په ډېره چټکۍ سره بهیږي. زما د لیکلو قلم رنګ نه لري. د کتابچه کاغذ سپین او پاک دی. د خونې کړکۍ مهرباني وکړئ خلاصه کړه. مهرباني وکړئ دلته خپل لاسلیک وکړئ. آیا ته سبا ته فارغ وخت لرې؟ هغه زموږ په کلي کې ښه سړی دی. موږ د روښانه راتلونکي لپاره هیله لرو. ونې موږ ته تازه اکسیجن راکوي. د دې ښار سړکونه ډېر پراخ دي. هره توره شپه روښانه سبا لري. صبر کول د لویې بریا کیلي ده. تل هڅه وکړئ چې ښه انسان اوسئ. مطالعه کول د انسان ذهن روښانه کوي. سهار ورزش د روغتیا لپاره ګټور دی. د انګور باغونه ډېر ښایسته ښکاري. د مڼو حاصلات سږ کال ډېر ښه دي. زه له خپلې کورنۍ سره اوسېږم. د لوی ښار ژوند ډېر بوخت دی. موږ باید پاکې اوبه ضایع نه کړو. پاکوالی د ایمان ډېره مهمه برخه ده. مرغۍ په لوړو ونو کې ځالې جوړوي. لمر ځمکې ته تودوخه ورکوي. د باران اوبه ځمکه خړوبوي. د ژمي واوره سپینه او یخه ده. د باد د لګېدو غږ اورېدل کېږي. موږ د خپلو مېلمنو هرکلی کوو. پښتانه ډېر مېلمه پال خلک دي. تاریخ د تېر وخت مهمه هنداره ده. موږ خپل ملي کلتور ژوندی ساتو. زموږ بیرغ په لوړه رپېږي. کلي ته تللې لاره ډېره اوږده ده. هغه په خپل رسمي کار کې تکړه دی. موږ باید تل همکارۍ ته چمتو اوسو. د خلکو په اتحاد کې لوی برکت دی. نفاق د ټولنې د تباهۍ لامل دی. جنت د مور د پښو لاندې دی. پلار د کورنۍ کلکه ستن ده. ورور د خپل ورور لپاره بازو دی. خور د وروڼو د زړه ټوټه ده. رښتینې ملګرتیا په سختۍ کې معلومېږي. وخت د طلا په څېر ډېر ارزښت لري. تېر شوی وخت بېرته نه راګرځي. نن ورځ له پرون څخه ډېره ښه ده. سبا ورځ به انشاالله خيریه وي. غم او خوښي دواړه د ژوند برخه ده. موږ باید د خدای شکر ادا کړو. خدای ډېر مهربانه او رحیم ذات دی. لمونځ د دین محکم ستن ده. روژه نیول د صبر ښه تمرین دی. زکات ورکول د انسان مال پاکوي. حج د اسلام ډېر مهم رکن دی. ښه اخلاق د هر انسان ښکلا ده. رښتینولي د نجات اصلي لاره ده. غلا کول په ټولنه کې لوی جرم دی. د ظلم پای هېڅکله نه لري. عدالت د ټولنې مهمه اړتیا ده. قاضي باید په پرېکړه کې عادل وي. پولیس د خلکو د امنیت ساتونکي دي. ډاکټر د ناروغانو په مینه درملنه کوي. انجینر د هېواد لپاره ودانۍ جوړوي. بزګر په ځمکه کې غنم کري. خیاط خلکو ته جامې ګنډي. نجار د لرګیو ښایسته کار کوي. اشپز په پخلنځي کې خواړه پاخوي. موټر چلونکی باید په لاره احتیاط وکړي. د اورګاډي پټلۍ نوي جوړه شوه. برښنا زموږ تیاره کورونه روښانه کوي. ټیلیفون د لرې اړیکو وسیله ده. انټرنیټ ټوله نړۍ سره وصل کړې ده. راډیو تازه خبرونه خپروي. تلویزیون رنګارنګ تصویرونه ښیي. کمپیوټر زموږ ورځني کارونه اسانه کوي. قلم له تورې څخه ډېر تېز دی. پوهه انسان ته لوی ځواک ورکوي. ناپوهي د انسان لپاره تیاره ده. تجربه د علم او پوهې مور ده. له مشرانو سره مشوره کول ښه کار دی. د سفر ملګری باید ډېر ښه وي. کور مو تل ودان او ژوند مو خوشحاله.
زما په شخصي نظر هر انسان که هغه ښځه وي يا سړی ځانله احساسات لري د دې لپاره چې مېرمن يې خفه نه شي اوله خو بايد ورسره کوشش وشي چې په نرمه ژبه او درناوي خبرې وشي سخت او سپک الفاظ ورته ونه کاروو ځکه په دې ډول الفاظو هغوی ډير ژر خفه کېږي کوښښ وکړو چې خبرې یې واورو او احساساتو ته یې ارزښت ورکړو نه دا چې بې پروا واوسو ځکه دا د گډ ژوند خبره ده کله چې یو ځای گډ ژوند کوو نو مجبوره یو چې یو بل ته احترام ولرو، درناوی ولرو او له ټولو مهمه مهمه خبره داده چې خپلو مېرمنو ته دروغ ونه وایو ځکه ښځې له دروغو نه ډېره کرکه لري خپلو ژمنو باندې ولاړ و اوسو او که چېرې له موږ نه کومه تېروتنه يا غلطۍ کېږي نو دا خو ډيره اسانه خبره ده عاجل دې ترينه بخښنه وغواړو ځکه بخښنه زموږ ترمنځ مینه زیاتوي، پاملرنه ورته وکړو، مهرباني ورسره وکړو، قدر یې وکړو، زړه یې لاسته راوړو ځکه ښځې ډېر نازک طبیعت لري په وړې خبرې خفه کېږي ددې لپاره کوشش وکړو چې همېشه ورسره ښه سلوک ولرو او اخري کلام دا چې احترام صبر او ښه چلند زما په نظر هغه څه دي چې اړیکې ښې ساتي او د خاوند او میرمنې تر منځ مينه لا زياتوي
ستاسو په کلی کی څوموره مسجدونه دی او په څوموره په څوموره کور یی یومسجد جوړ کړی دی
که تاسي راتلونکي وخت ته سفر کولای سوای، نو کوم وخت ته به ځئ؟ او ولي؟
د کابل د سروبي ماهيان خو بيل خوند کوي، او ماهيان چې دي هغه د ننګراهار د ډرونټې ماهيان مزيداره دي، ښه خوند کوي. او ما خپله څو مياشتې مخکې دا ماهيان خوړلي دي او اوس مې په دې ژمي کې بيا ورته اراده ده. ځکه چې بدن د ماهيو غوښې ته اړتيا لري. د ماهي په غوښه کې وټامن ډي دي نو لازمه ده چې د وسه د توان سره هر څوک د هغه څخه استفاده وکړي.
Fields
Each row of a tsv file represents a single audio clip, and contains the following information:
client_id- hashed UUID of a given useraudio_id- numeric id for audio fileaudio_file- audio file nameduration_ms- duration of audio in millisecondsprompt_id- numeric id for promptprompt- question for usertranscription- transcription of the audio responsevotes- number of people that who approved a given transcriptage- age of the speaker1gender- gender of the speaker1language- language namesplit- for data modelling, which subset of the data does this clip pertain tochar_per_sec- how many characters of transcription per second of audioquality_tags- some automated assessment of the transcription--audio pair, separated by|transcription-length- character per second under 3 characters per secondspeech-rate- characters per second over 30 characters per secondshort-audio- audio length under 2 secondslong-audio- audio length over 5 minutes
Get involved
Community links
Discussions
Contribute
Licence
This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.
Footnotes
For a full list of age, gender, and accent options, see the demographics spec. These will only be reported if the speaker opted in to provide that information. ↩ ↩2