Common Voice Spontaneous Speech 3.0 - Pashto

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 195.14 MB


Share

Description

A collection of spontaneous responses to questions in Pashto (پښتو).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

پښتو — Pashto (ps)

This datasheet is for sps-corpus-3.0-2026-03-09 of the Mozilla Common Voice Spontaneous Speech dataset for Pashto [پښتو - ps]. The dataset contains 827 clips representing 10.24 hours of recorded speech (0.59 hours validated) from 68 speakers.

Data splits for modelling

The dataset clips are categorised by transcription status and training-set assignment. The following tables summarise the distribution.

Audio clips

BucketClips%
Transcribed & Validated8510.3%
Transcribed & Pending131.6%
Not transcribed72988.1%

Training splits

BucketClips%
Train00.0%
Dev00.0%
Test00.0%
Unassigned827100.0%

Training split coverage: 0 of 85 transcribed & validated clips (0.0%)

Transcriptions

Transcription status

BucketClips%
Validated8586.7%
Pending1313.3%
Edited3131.6%

Samples

Questions

There follows a randomly selected sample of questions used in the corpus.

  1. د چای څښل زموږ د کلتور یوه لویه برخه ده، ستاسو په نظر تور چای د بنډار لپاره ښه دی که شین چای؟ ولې؟

  2. ځیني خلک د غواګانو فارمونه جوړوي، نور بیا د پسونو او یا چرګانو ستاسو په اند کوم یې ډیره ګټه کوي؟

  3. زموږ په ټولنه کي ولي خلګ تعليم ته توجه نکوي ؟

  4. ستا نوم څه دی ؟

  5. د "جرګې" سیستم څنګه کار کوي او ولې خلک په محکمو کې د دعوې پر ځای جرګو ته ترجیح ورکوي؟

Responses

There follows a randomly selected sample of transcribed responses from the corpus.

  1. د سهار هوا ډېره پاکه ده. موږ د چای څښلو لپاره ناست وو. دغه کتاب د لوستلو لپاره ګټور دی. کابل د افغانستان مشهور ښار دی. زموږ هېواد ډېر لوړ غرونه لري. هلکان په میدان کې لوبې کوي. نجونې هره ورځ ښوونځي ته ځي. د سین پر غاړه شنه واښه شنه شوي. نن هوا لږ وریځ او سړه ده. زه له خپل ګران وطن سره مینه لرم. ډوډۍ په تنور کې پخه شوې ده. اوبه د انسان د ژوند لپاره اړینې دي. مور مې ماشومانو ته کیسه کوي. د شپې له خوا په اسمان کې ستوري ځلیږي. بزګران په خپلو پټیو کې کار کوي. موږ ټول باید تل رښتیا ووایو. درواغ ویل د انسان اعتبار له منځه وړي. علم زده کول انسان ته رڼا ورکوي. د پسرلي د ګلونو بوی ډېر ښه دی. ژمی راغی او هوا ډېره سړه شوه. پسرلی د کال ډېر ښکلی فصل دی. موږ په خپل هېواد کې سوله غواړو. روغتون ته نږدې لوی درملتون شته. بازار نن د خلکو ډېره ګڼه ګوڼه لري. سپین موټر په سړک روان دی. الوتکه په لوړه هوا کې الوتنه کوي. زه دلته د خپل ملګري په تمه یم. د هغه خبرې ماته په زړه پورې دي. موږ باید د خپلو مشرانو درناوی وکړو. کوچنیان باید له مور او پلار مینه وګوري. نن مې په دفتر کې ډېر کارونه وکړل. د غره سر په سپینه واوره پوښل شوی. سیندونه په ډېره چټکۍ سره بهیږي. زما د لیکلو قلم رنګ نه لري. د کتابچه کاغذ سپین او پاک دی. د خونې کړکۍ مهرباني وکړئ خلاصه کړه. مهرباني وکړئ دلته خپل لاسلیک وکړئ. آیا ته سبا ته فارغ وخت لرې؟ هغه زموږ په کلي کې ښه سړی دی. موږ د روښانه راتلونکي لپاره هیله لرو. ونې موږ ته تازه اکسیجن راکوي. د دې ښار سړکونه ډېر پراخ دي. هره توره شپه روښانه سبا لري. صبر کول د لویې بریا کیلي ده. تل هڅه وکړئ چې ښه انسان اوسئ. مطالعه کول د انسان ذهن روښانه کوي. سهار ورزش د روغتیا لپاره ګټور دی. د انګور باغونه ډېر ښایسته ښکاري. د مڼو حاصلات سږ کال ډېر ښه دي. زه له خپلې کورنۍ سره اوسېږم. د لوی ښار ژوند ډېر بوخت دی. موږ باید پاکې اوبه ضایع نه کړو. پاکوالی د ایمان ډېره مهمه برخه ده. مرغۍ په لوړو ونو کې ځالې جوړوي. لمر ځمکې ته تودوخه ورکوي. د باران اوبه ځمکه خړوبوي. د ژمي واوره سپینه او یخه ده. د باد د لګېدو غږ اورېدل کېږي. موږ د خپلو مېلمنو هرکلی کوو. پښتانه ډېر مېلمه پال خلک دي. تاریخ د تېر وخت مهمه هنداره ده. موږ خپل ملي کلتور ژوندی ساتو. زموږ بیرغ په لوړه رپېږي. کلي ته تللې لاره ډېره اوږده ده. هغه په خپل رسمي کار کې تکړه دی. موږ باید تل همکارۍ ته چمتو اوسو. د خلکو په اتحاد کې لوی برکت دی. نفاق د ټولنې د تباهۍ لامل دی. جنت د مور د پښو لاندې دی. پلار د کورنۍ کلکه ستن ده. ورور د خپل ورور لپاره بازو دی. خور د وروڼو د زړه ټوټه ده. رښتینې ملګرتیا په سختۍ کې معلومېږي. وخت د طلا په څېر ډېر ارزښت لري. تېر شوی وخت بېرته نه راګرځي. نن ورځ له پرون څخه ډېره ښه ده. سبا ورځ به انشاالله خيریه وي. غم او خوښي دواړه د ژوند برخه ده. موږ باید د خدای شکر ادا کړو. خدای ډېر مهربانه او رحیم ذات دی. لمونځ د دین محکم ستن ده. روژه نیول د صبر ښه تمرین دی. زکات ورکول د انسان مال پاکوي. حج د اسلام ډېر مهم رکن دی. ښه اخلاق د هر انسان ښکلا ده. رښتینولي د نجات اصلي لاره ده. غلا کول په ټولنه کې لوی جرم دی. د ظلم پای هېڅکله نه لري. عدالت د ټولنې مهمه اړتیا ده. قاضي باید په پرېکړه کې عادل وي. پولیس د خلکو د امنیت ساتونکي دي. ډاکټر د ناروغانو په مینه درملنه کوي. انجینر د هېواد لپاره ودانۍ جوړوي. بزګر په ځمکه کې غنم کري. خیاط خلکو ته جامې ګنډي. نجار د لرګیو ښایسته کار کوي. اشپز په پخلنځي کې خواړه پاخوي. موټر چلونکی باید په لاره احتیاط وکړي. د اورګاډي پټلۍ نوي جوړه شوه. برښنا زموږ تیاره کورونه روښانه کوي. ټیلیفون د لرې اړیکو وسیله ده. انټرنیټ ټوله نړۍ سره وصل کړې ده. راډیو تازه خبرونه خپروي. تلویزیون رنګارنګ تصویرونه ښیي. کمپیوټر زموږ ورځني کارونه اسانه کوي. قلم له تورې څخه ډېر تېز دی. پوهه انسان ته لوی ځواک ورکوي. ناپوهي د انسان لپاره تیاره ده. تجربه د علم او پوهې مور ده. له مشرانو سره مشوره کول ښه کار دی. د سفر ملګری باید ډېر ښه وي. کور مو تل ودان او ژوند مو خوشحاله.

  2. زما په شخصي نظر هر انسان که هغه ښځه وي يا سړی ځانله احساسات لري د دې لپاره چې مېرمن يې خفه نه شي اوله خو بايد ورسره کوشش وشي چې په نرمه ژبه او درناوي خبرې وشي سخت او سپک الفاظ ورته ونه کاروو ځکه په دې ډول الفاظو هغوی ډير ژر خفه کېږي کوښښ وکړو چې خبرې یې واورو او احساساتو ته یې ارزښت ورکړو نه دا چې بې پروا واوسو ځکه دا د گډ ژوند خبره ده کله چې یو ځای گډ ژوند کوو نو مجبوره یو چې یو بل ته احترام ولرو، درناوی ولرو او له ټولو مهمه مهمه خبره داده چې خپلو مېرمنو ته دروغ ونه وایو ځکه ښځې له دروغو نه ډېره کرکه لري خپلو ژمنو باندې ولاړ و اوسو او که چېرې له موږ نه کومه تېروتنه يا غلطۍ کېږي نو دا خو ډيره اسانه خبره ده عاجل دې ترينه بخښنه وغواړو ځکه بخښنه زموږ ترمنځ مینه زیاتوي، پاملرنه ورته وکړو، مهرباني ورسره وکړو، قدر یې وکړو، زړه یې لاسته راوړو ځکه ښځې ډېر نازک طبیعت لري په وړې خبرې خفه کېږي ددې لپاره کوشش وکړو چې همېشه ورسره ښه سلوک ولرو او اخري کلام دا چې احترام صبر او ښه چلند زما په نظر هغه څه دي چې اړیکې ښې ساتي او د خاوند او میرمنې تر منځ مينه لا زياتوي

  3. ستاسو په کلی کی څوموره مسجدونه دی او په څوموره په څوموره کور یی یومسجد جوړ کړی دی

  4. که تاسي راتلونکي وخت ته سفر کولای سوای، نو کوم وخت ته به ځئ؟ او ولي؟

  5. د کابل د سروبي ماهيان خو بيل خوند کوي، او ماهيان چې دي هغه د ننګراهار د ډرونټې ماهيان مزيداره دي، ښه خوند کوي. او ما خپله څو مياشتې مخکې دا ماهيان خوړلي دي او اوس مې په دې ژمي کې بيا ورته اراده ده. ځکه چې بدن د ماهيو غوښې ته اړتيا لري. د ماهي په غوښه کې وټامن ډي دي نو لازمه ده چې د وسه د توان سره هر څوک د هغه څخه استفاده وکړي.

Fields

Each row of a tsv file represents a single audio clip, and contains the following information:

  • client_id - hashed UUID of a given user

  • audio_id - numeric id for audio file

  • audio_file - audio file name

  • duration_ms - duration of audio in milliseconds

  • prompt_id - numeric id for prompt

  • prompt - question for user

  • transcription - transcription of the audio response

  • votes - number of people that who approved a given transcript

  • age - age of the speaker1

  • gender - gender of the speaker1

  • language - language name

  • split - for data modelling, which subset of the data does this clip pertain to

  • char_per_sec - how many characters of transcription per second of audio

  • quality_tags - some automated assessment of the transcription--audio pair, separated by |

    • transcription-length - character per second under 3 characters per second

    • speech-rate - characters per second over 30 characters per second

    • short-audio - audio length under 2 seconds

    • long-audio - audio length over 5 minutes

Get involved

Community links

Discussions

Contribute

Licence

This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.

Footnotes

  1. For a full list of age, gender, and accent options, see the demographics spec. These will only be reported if the speaker opted in to provide that information. 2