Jhoke Publisher Multan’s Saraiki Newspaper Corpus
License:
CC-BY-NC-4.0
Steward:
Kaleem Art PressTask: NLP
Release Date: 3/3/2026
Format: TXT
Size: 2.30 MB
Share
Description
Jhoke Publishers Multan’s Saraiki Newspaper Corpus is a curated text dataset with about 1.25M tokens (1,258K) of Saraiki content collected from Daily Jhoke Saraiki (Multan, Pakistan) and Jhoke Publishers (Multan, Pakistan). Daily Jhoke Multan (ݙین٘ھ وار جھوک ملتان) is a Saraiki newspaper and publishing house based in Multan. It covers regional news and also publishes Saraiki literature, including major literary and religious works (e.g., a Saraiki Quran translation by Professor Dilshad Kalanchvi). The corpus includes three UTF-8 text files (each treated as a separate genre/domain) and a cleaned version with Unicode normalization, standardized whitespace and punctuation, and removal of stray symbols or markup. The dataset reflects contemporary Saraiki usage across journalistic, literary, cultural, and social domains and supports computational and linguistic research.
Specifics
Licensing
Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)
https://spdx.org/licenses/CC-BY-NC-4.0.htmlConsiderations
Restrictions/Special Constraints
This dataset is intended for research, academic, and scientific purposes
Forbidden Usage
You may not use the Jhoke Publishers Multan Saraiki Newspaper Corpus to train or fine-tune chatbots/LLMs, produce harmful or deceptive content, or redistribute/resell it without permission and attribution.
Metadata
Dataset Structure
The dataset contains 3 UTF-8 encoded files, each treated as a separate genre container:
01-Saraiki Newspaper Corpus - by Jhoke Publishers Multan - 126,561 tokens
02-Saraiki Newspaper Corpus - by Jhoke Publishers Multan - 1,126,907 tokens
03-Saraiki Literature Corpus - by Jhoke Publishers Multan - 5,379 tokens
Total: ~1.25M tokens (1258K tokens)
Cleaning & Preprocessing
UTF-8 encoding
Unicode normalization
Whitespace cleanup
Punctuation standardization
Removal of stray symbols/markup
Cleaned parallel layer provided
Domains of the Text
Literature (Newspaper)
Poetry (Aesthetic / Cultural Expression)
Folklore & Oral Tradition (Textual form)
Everyday Social Themes
Cultural Knowledge & Heritage
Local & International News Reports
Analytical & Opinion Articles
Sample Text (Excerpt)
اے ، جنگ تے یقین کائنی رکھیندے ، جوہری صلاحیت ملکی دفاع کیتے ہے، سائنسی شعبے دی ترقی انساناں دی فلاح و بہبود کیتے استعمال کیتی ونجنڑیں چاہیدی اے ،سائنسی ترقی دے انسانی زندگی تے مثبت اثرات ہوندن۔
اسلام آباد۔یکم جنوری(اے پی پی )اردواتے سرائیکی ادب دا مہاندراناں،معروف ماہر تعلیم ڈاکٹرحفیظ الرحمان طاہر عرف ڈاکٹر طاہر تونسوی جگ توں منہ موڑگئے۔
اے۔اقوام متحدہ دی رپورٹ موجب کہیں وی مجبوری پاروں غیر ملک امریکہ، جرمنی، سعودی عرب، وفاقی روس، برطانیہ، متحدہ عرب امارات، فرانس، کینیڈا، آسٹریلیا اتے اٹلی اچ نقل مکانی کرنڑ آلے 50 فیصد غیر ملکی راہندے پین۔
ملتان(نمائندہ جھوک) کشمیر دے مسئلے تے قومی اتحاد دی لوڑھ ہے، آل پارٹیز کانفرنس سڈ تے سرائیکی جماعتاں سمیت سب کوں اعتماد اچ گھٖدا ونجٖے۔ انہاں خیالاں دا اظہار سرائیکستان قومی کونسل دے رہنماواں پروفیسر شوکت مغل، ظہور دھریجہ تے عبدالباسط بھٹی یوم یکجہتی کشمیر دے موقع تے پریس کانفرنس توں خطاب کریندے ہوئیں کیتا۔
ملتان ۔ 31 اگست (اے پی پی) چار سو کلومیٹر ملتان سکھر موٹر وے سیکشن ایم فائیو مکمل کر گھدا گئے جیندے تے ترائے ارب روپے لاگت آئی اے۔