Jhoke Publisher Multan’s Saraiki Newspaper Corpus

License icon

License:

CC-BY-NC-4.0

Shield icon

Steward:

Kaleem Art Press

Task: NLP

Release Date: 3/3/2026

Format: TXT

Size: 2.30 MB


Share

Description

Jhoke Publishers Multan’s Saraiki Newspaper Corpus is a curated text dataset with about 1.25M tokens (1,258K) of Saraiki content collected from Daily Jhoke Saraiki (Multan, Pakistan) and Jhoke Publishers (Multan, Pakistan). Daily Jhoke Multan (ݙین٘ھ وار جھوک ملتان) is a Saraiki newspaper and publishing house based in Multan. It covers regional news and also publishes Saraiki literature, including major literary and religious works (e.g., a Saraiki Quran translation by Professor Dilshad Kalanchvi). The corpus includes three UTF-8 text files (each treated as a separate genre/domain) and a cleaned version with Unicode normalization, standardized whitespace and punctuation, and removal of stray symbols or markup. The dataset reflects contemporary Saraiki usage across journalistic, literary, cultural, and social domains and supports computational and linguistic research.

Specifics

Licensing

Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)

https://spdx.org/licenses/CC-BY-NC-4.0.html

Considerations

Restrictions/Special Constraints

This dataset is intended for research, academic, and scientific purposes

Forbidden Usage

You may not use the Jhoke Publishers Multan Saraiki Newspaper Corpus to train or fine-tune chatbots/LLMs, produce harmful or deceptive content, or redistribute/resell it without permission and attribution.

Metadata

Dataset Structure

The dataset contains 3 UTF-8 encoded files, each treated as a separate genre container:

  1. 01-Saraiki Newspaper Corpus - by Jhoke Publishers Multan - 126,561 tokens

  2. 02-Saraiki Newspaper Corpus - by Jhoke Publishers Multan - 1,126,907 tokens

  3. 03-Saraiki Literature Corpus - by Jhoke Publishers Multan - 5,379 tokens

Total: ~1.25M tokens (1258K tokens)

Cleaning & Preprocessing

  • UTF-8 encoding

  • Unicode normalization

  • Whitespace cleanup

  • Punctuation standardization

  • Removal of stray symbols/markup

  • Cleaned parallel layer provided

Domains of the Text

  • Literature (Newspaper)

  • Poetry (Aesthetic / Cultural Expression)

  • Folklore & Oral Tradition (Textual form)

  • Everyday Social Themes

  • Cultural Knowledge & Heritage

  • Local & International News Reports

  • Analytical & Opinion Articles

Sample Text (Excerpt)

  • اے ، جنگ تے یقین کائنی رکھیندے ، جوہری صلاحیت ملکی دفاع کیتے ہے، سائنسی شعبے دی ترقی انساناں دی فلاح و بہبود کیتے استعمال کیتی ونجنڑیں چاہیدی اے ،سائنسی ترقی دے انسانی زندگی تے مثبت اثرات ہوندن۔

  • اسلام آباد۔یکم جنوری(اے پی پی )اردواتے سرائیکی ادب دا مہاندراناں،معروف ماہر تعلیم ڈاکٹرحفیظ الرحمان طاہر عرف ڈاکٹر طاہر تونسوی جگ توں منہ موڑگئے۔

  • اے۔اقوام متحدہ دی رپورٹ موجب کہیں وی مجبوری پاروں غیر ملک امریکہ، جرمنی، سعودی عرب، وفاقی روس، برطانیہ، متحدہ عرب امارات، فرانس، کینیڈا، آسٹریلیا اتے اٹلی اچ نقل مکانی کرنڑ آلے 50 فیصد غیر ملکی راہندے پین۔

  • ملتان(نمائندہ جھوک) کشمیر دے مسئلے تے قومی اتحاد دی لوڑھ ہے، آل پارٹیز کانفرنس سڈ تے سرائیکی جماعتاں سمیت سب کوں اعتماد اچ گھٖدا ونجٖے۔ انہاں خیالاں دا اظہار سرائیکستان قومی کونسل دے رہنماواں پروفیسر شوکت مغل، ظہور دھریجہ تے عبدالباسط بھٹی یوم یکجہتی کشمیر دے موقع تے پریس کانفرنس توں خطاب کریندے ہوئیں کیتا۔

  • ملتان ۔ 31 اگست (اے پی پی) چار سو کلومیٹر ملتان سکھر موٹر وے سیکشن ایم فائیو مکمل کر گھدا گئے جیندے تے ترائے ارب روپے لاگت آئی اے۔