Common Voice Scripted Speech 23.0 - Khowar
Locale: khw
Size: 409.44 MB
Task: ASR
Format: MP3
License: CC-0
کھوار — Khowar (khw
)
This datasheet is for version 23.0 of the the Mozilla Common Voice Scripted Speech dataset
for Khowar (khw
). The dataset contains 21 hours of recorded
speech (18 hours validated) from 49 speakers.
Language
The Khowar-speaking people are the largest group in Chitral and also use as a lingua franca in in the valley. This language is also known as Qashqari by Pashto speakers. It is classified within the Indo-Aryan branch of the Indo-European family. Besides Chitral, Khowar is also spoken in Gilgit-Baltistan and the Swat Valley. The estimated number of Khowar speakers in all regions is more than 600,000, with a population of 400,000 in Chitral alone. Khowar is a literate language, with books, magazines, radio and tive programs, and audio/video documentation. It has been included in the school curriculum since 2017.
Demographic information
The dataset includes the following distribution of age and gender.
Gender
Self-declared gender information, percentage refers to the number of clips annotated with this gender.
Gender | Pertentage |
---|---|
Undefined | 100.0% |
Age
Self-declared age information, percentage refers to the number of clips annotated with this age band.
Age Band | Percentage |
---|---|
Undefined | 7.0% |
Twenties | 11.0% |
Thirties | 26.0% |
Fourties | 55.0% |
Text corpus
The text come from the books FLI and its partners organisation published. I also wrote my own around 1000 sentences.
Writing system
I used the standard writing system that is Perso-Arabic with standard symbol for specific sounds of Khowar
Symbol table
In addition to all letters of Urdu we use the following additional letters:
ݱ ݰ ݯ ځ څ
Sample
There follows a randomly selected sample of eleven sentences from the corpus.
دُورہ گیتی اوہتی انوس خلفو دُوروت راہی اریر پُھک خور مڑاغ نسان اریر۔
خلفو دُورہ تورتائے۔
جم بیلیوت خلیفہ دُورہ تان استائے۔
بشاراحولار اچی مڑاغو تو پروشٹہ لاکھیتائے۔
چھوچیو ݱوت وخت اوشوئے۔
داد ا وارانگو کریمتو دیتی ویرومو سورا نیشی استائے۔
ہوستو لنگرآبادو نانو ووݰکی درونگیتائے۔
لنگرآبادو نان ہوستہ ویڅھیتائے۔
خور دادو خیرو خبرو گانیتائے۔
جم کیہ مہ ژور جم ہنون جم اوریتام تہ پونگ جم بیرائے، اورارو غم بیراؤ بیہیل،بیہیل،بیہیل نانی دی لنگرآبادو نانو سُم بشار احوال کوری ریتائے کی اوا دی جم اوریتام خور انوس کو س دی پونگہ پھاتوکتو دار دیتی روشتی خوماؤ اوشوئے۔
کیہ بیہیل ہوؤ انگاہ نو بیتی گرانیش بیرو بیرائے، تہ پونگ جم تہ دادا دی ہݰ ریتائے بیہیل،بیہیل۔
Automatic random samples
پُھک اشپیرو پھیناکو غون موخ کورا کورا آسمانی کھوٹو غون تیلیو غلجہ کاردو پورو دی قلاہورو موخو دی آسمانو غون کوری اوشونی
نسہ زوڑئے
ریکو رینی ریتائے کی تومہ پروشٹو توݰ درے اسیتاؤ، ہیس متین کوڑ دریتائے تہ لوؤ کھیوت کارکومان ریتائے
ہے کوموران را سونی کی نو لا اسپہ کوئی اوشٹوریسیان را اسونی
ہیہ حالتو لوڑی مبارک خان مبارک مرحومو ای شعر شاہ دولو یادی ہائے ہسے ہموُݰ اوشوئے ای ویݰکی انصاف شیر وا ای ویݰکی ظلم ہنون ہر ژاغہ شکست ژبیوئے غریب اوچے مسکین ہنون اوا تان ویزین روئے مہ ہوازو کارکوری گدیری بیرو بیرانی
Sources
Angrestan by Zafar Ullah Pervaz
Robinson Cruso, by Fardi
Oraya by Farid
Translation of MTB MLE material in Khowar by FLI
Khowar Material by Farid
Human and Children Rights Translation by Farid.
Khowar Folktales by Zahoor
100 Sentence by myself
Text domains
General
Processing
Collected soft books and got copy waiver from authors. Put on Excel sheet and reviewed the sentences for length and correction. Sent to Meesum Alam. In my own case upload the sentence directly. Voice over the sentences by different by people. Validated the sentences by different people.
Community links
Datasheet authors
Common Voice Community
Funding
The funding come form Meesum Alam, email: meesum.alam12@gmail.com
Licence
This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.