Kaleem Magazine Urdu Corpus
License:
CC-BY-NC-4.0
Steward:
Weekly Kaleem Magazine Multan
Task: NLP
Release Date: 11/17/2025
Format: TXT
Size: 2.74 MB
Description
This corpus is a collection of around 1.4 million tokens of Urdu language. The data was extracted from the archives of a famous Urdu magazine "Kaleem" published weekly from last 30 years. This corpus contains work of literature including stories, short stories, news, poetry, literary reports, fiction, non-fiction, and travelogues. The data is being shared with the approval of the authors. It aims to support linguistic research, language technology development, and cultural preservation.
Specifics
Licensing
Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)
https://spdx.org/licenses/CC-BY-NC-4.0.htmlConsiderations
Restrictions/Special Constraints
The data cannot be used by an organization having annual revenue more than one million USDs.
Forbidden Usage
Generating, promoting, or distributing hate speech, misinformation, or culturally offensive content. Commercial or for-profit projects without explicit permission from the dataset creator. Any use that misrepresents or distorts Urdu literature or the works contained within.
Processes
Ethical Review
The dataset was curated from publicly available Urdu literary sources under ethical self-review by Weekly Kaleem Magazine. There is no sensitive or copyrighted material in this corpus. The collection aligns with CC-BY-NC-4.0 and principles of cultural respect, transparency, and non-commercial research use.
Intended Use
This dataset is intended for research, education, and non-commercial use in NLP, computational linguistics, and digital humanities. It may be used for training, fine-tuning, or evaluating models for Urdu language processing, and for linguistic and literary analysis supporting cultural preservation.
Metadata
Language
Urdu (اُردو) is an Indo-Aryan language that is the official language of Pakistan and an official language in several Indian states. It is closely related to Hindi, sharing a common spoken base (Khari Boli), but is distinguished by its script (Perso-Arabic Nastaliq) and a vocabulary influenced heavily by Persian and Arabic, while Hindi is influenced more by Sanskrit. It has a rich literary tradition and is spoken by an estimated 100 million people worldwide.
Content of the Corpus
The corpus contains a file with the name "Weekly Kaleem Magazine Corpus" which contains work of literature including stories, short stories, news, poetry, literary reports, fiction, non-fiction, and travelogues published in Weekly Kaleem Magazine Multan in different editions.
List of Alphabets:
ا آ ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ن و ہ ھ ء ی ے *
Sample Text:
خلوصِ نیت ، بصیرت اور مذہبی اقدار سے جو مساجد اور ادارے نشو و نما پاتے ہیں اس کی کلیوں اور پھولوں سے اُٹھنے والی خوشبو معاشرے کے بے تاب جذبوں کو توانائی عطاکرتی ہے ۔ روح کی تسکین و تفریح کے منجملہ اسباب کا دِل کش اور اَدبی نام فنونِ لطیفہ ہے۔ مختلف اذہان میں پرورش پانے والے تخیلات کے خوبصورت اظہار سے فنونِ لطیفہ مرکب ہے جو تہذیب کے آغاز سے ہی انسان کے احساسِ جمال کا پر تو رہے ہیں۔ تخلیق کوئی بھی کسی رسمی تعارف کی محتاج نہیں ہوتی گویا تخلیق کار کا فن بزبانِ خود بول رہا ہوتا ہے۔ قول و فعل کا تضاد ہمارے لئے سوہانِ روح ہے۔ آدمی منہ سے جو بولے سب سے پہلے خود اس پر عمل پیرا ہو، پھر کسی دوسرے سے یہ توقع رکھے کہ وہ بھی اس اچھائی پر عمل کرے گا۔ چمکتے ہوئے ستارے کو ہر کوئی تحسین کی نظر سے دیکھتا ہے کیونکہ اس کی چمک ،آب وتاب اور انفرادی خصوصیات ہی لوگوں کی اپنی طرف متوجہ کرتی ہیں ۔ یہ میری خوش قسمتی تھی کہ میں ایک اسلامی ملک میں مقیم تھا، اس لیے اسلامی تعلیم و تربیت حاصل کرنا بہت آسان تھا۔
