Kaleem Art Press Urdu Literature Corpus
License:
CC-BY-NC-4.0
Steward:
Kaleem Art Press
Task: OTH
Release Date: 12/3/2025
Format: TXT
Size: 2.85 MB
Description
This corpus is a collection of 1.44 million tokens of Urdu language . The data was produced under the Kaleem Art Press over the last fifteen years . The corpus contains work of literature including Stories, Short Stories, Novels, fiction, non-fiction, Travelogues, Poetry, Biography, and History. The data is being shared with the approval of the authors. It aims to support linguistic research, language technology development, and cultural preservation.
Specifics
Licensing
Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)
https://spdx.org/licenses/CC-BY-NC-4.0.htmlConsiderations
Restrictions/Special Constraints
This data cannot be used by any organization having annual revenue more than one million USDs.
Forbidden Usage
Generating, promoting, or distributing hate speech, misinformation, or culturally offensive content. Commercial or for-profit projects without explicit permission from the dataset creator. Any use that misrepresents or distorts Urdu literature or the works contained within.
Processes
Ethical Review
The dataset was curated from publicly available or author-shared Urdu literary sources under ethical self-review by Kaleem Art Press. There is no sensitive or copyrighted material in this corpus. The collection aligns with CC-BY-NC-4.0 and principles of cultural respect, transparency, and non-commercial research use.
Intended Use
This dataset is intended for research, education, and non-commercial use in NLP, computational linguistics, and digital humanities. It may be used for training, fine-tuning, or evaluating models for Urdu language processing, and for linguistic and literary analysis supporting cultural preservation.
Metadata
Language Urdu (اُردو) is an Indo-Aryan language that is the national language of Pakistan and an official language in parts of India. It shares a common base with Hindi but is distinct due to its heavy reliance on vocabulary from Persian and Arabic, as well as its use of a modified Perso-Arabic script, known as Nastaliq, written from right to left. Content of the Corpus The corpus contains following books from multiple authors written in Urdu • Beyaz-e-Junoon • Dabistan e Multan • Faizan-e-Iftikhar • Safaratun Tayyibatun • Iran Shad Bad • Qeel o Qaal e Kazmi • Delhi Yatra-2 • Ata-e-Kabeer • Civil Cases References • Dr Ghulam Jillani Barq • Haqaiq ul Quran • Uloom-e-Makhfi • Jadeed Tanqidi Istalahat ki Farhang • Jamal us Salikeen • Aik Multani ki Yadain • Khasais o Fazail e Aqa Kareem • Seero Fil Arz • Quran ki Dawat-e-Fikr • Hayat e Mubaraka Hazrat Shah Shams • Tazkaratul Haqqani • Tareekh e Qabila Ghilzai • Sayahat e Lafzi • Multan ka Karwan e Siyasat List of Alphabets *اآ ب پ ٹ ث چ ح د ڈ ذ ڑ ژ س ش ص ط ظ ع غ ف ق ک گ ل م ن ں و ہ ھ ی ے ئ ء * Sample Text • محمد حسن خان کلیم (محمد حسن) کی مادر زبان ملتانی (سرائیکی) تھی۔ آپ کے آب و جد نسلاً ’لنگاہ‘ خاندان سے تھے، اور یہ ملتان کے مضافات میں پندرہ میل کے فاصلہ پر واقع علاقہ جھوک وینس میں رہتے تھے۔ • ابنِ کلیم کا سفرنامہ ’’دلی یاترا‘‘ ہمارے عہد میں لکھے جانے والے دوسرے تمام سفر ناموں سے مختلف ہے اور اُن پرانے سفرناموں کی یاد دلاتا ہے جو کسی واضح مقصد کے تحت لکھے جاتے تھے۔ پرانے سفرناموں کا اہم ترین مقصد کسی دوسرے ملک، وہاں کے لوگوں اور اُن کی زندگی کے بارے میں معلومات حاصل کرنا اور انہیں تاریخ کا حصہ بنانا ہوا کرتا تھا۔ • ’’فن خطاطی ہمارا حقیقی ثقافتی وِرثہ‘‘ کے عنوان سے نوجوان قلمکار مبشر کلیم خان سیکرٹری انفارمیشن دبستان فروغِ خطاطی کا تحقیقی مضمون اسی طرح محمد مجاہد سیدؔ کا مضمون ’’آرٹ قوموں کو باہم قریب لا سکتا ہے‘‘ بڑے لاجواب ہیں۔ • دراصل ہماری روحیں عالمِ ارواح سے اس فانی دنیا میں آتی ہیں اور پھر ایک مہمان کی طرح اپنا عرصۂ حیات گزار کر بحکمِ خدا واپس عالمِ ارواح میں چلی جاتی ہیں یہی اس دنیائے ہست و بود کا نظام ہے • قرآن عظیم علمی و منطقی دلائل سے آراستہ صحیفہ کائنات ہے جو انسان کو جذبات سے نہیں بلکہ اس کی عقل سے اپیل کرتے ہوئے اسے غور و فکر کی دعوت دیتا ہے۔
