Common Voice Spontaneous Speech 2.0 - Papantla Totonac

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 205.51 MB


Description

A collection of spontaneous spoken phrases in Papantla Totonac.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Papantla Totonac — Papantla Totonac (top)

Esta hoja de datos ha sido generada automáticamente, nos encantaría incluir más información, si deseas ayudar, ¡ponte en contacto con nosotros!

Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Papantla Totonac (top). El conjunto de datos contiene 389 representando 13 horas de grabaciones (13 horas validadas) de 10 hablantes.

Partición de datos para modelado

ParticiónCuenta
Train316
Test65
Dev78

Transcripciones

  • Preguntas: 143

  • Duración total: 12:11:32 [h:m:s]

  • Longitud promedio de transcripción (en carácteres): 652

  • Duración promedio: 112.83[s]

  • Duración validada: 43401.096[s]

  • Horas totales: 12.19[h]

  • Horas validas: 12.06[h]

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

Tuku lank'a tapuwan tlawaputuna xlimakgas, chu wana?
Kilitachiwinanti tu lan xtakatsit minpulataman.
Ana ni lapat tukuya lanka silakgni lama?
Nikula tasi xatiji'a minpulataman?
Kgalhiya wix tukuya tlan talakapastakni kgalhi ne paxkiya?
Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Akit xakklakaskilh nakkinpulataman kintapuwan nema lanka kpuwan xchalh nkk municipio ana niku lakapuxkuyan taskujut ananiku nikutlan xmakaxtlawaniw kintijiakan akgtuminika pulataman xlakata tlan natlawanaw putlaw ana niku nikatlan la uchu walakgolh nak kinpulataman, nilay pataxtukan laktsu puxkga ana niku talaktlawan makgalhtawakgenanin limakgalhtawakgen tawilanankgolh takimakgalhchokgoy chi xlakata nila tapataxtuy chi akxni senan staka laktsu puxkga xawa liminkgoy lata tuku lixkajnit nilay tajukan ama xaklakaskilh ama xkaxtlawaka xkinmakgtayan puxku mapakgsina naxaklakaskilh xtaspitpa ama kilhtamaku ana niku ama kintapakganat xtachiwinalh kintachiwinkan litutunaku xlakata nixlakgtsankalh nachuna xtalhakganalh kintalhakanankan ama xasnapapa nalan tasi maski nixtawalilh chali chali akxni xpaxkuajnakan la uchu tlawakan 15 de agosto oso kinpaskuankan nakkinpulataman wakg xtatlanakgolh snapapa xtlakgatkan litutunaku tawilana chatun chatuy tiku talhakgananku pero sputma ama akit klakaskinaw nixlakgsputkgolh niwatiya nachuna xaklakaskilh ama kintacristianunkan xlmakgachipajku la akxni lamakgachipayaw akxni tlen xlawaniyae puskatin lalakchixkuwin lalakkgawasan lalaktsumajan chi akgsputkgoni chi ama xlakata kakatsi wana nikalitawakan nikaliskujkan stakayawakan nak chitkan xanatikun nitakatsi para takatsi tawilana nakchiki xkamajkan talapula nak katijin akaniniwa talatayay talatakgalhchiwinaman lalakgkgawasan la laktsumajan yan talakapastaka la uchu wanaw nachuna kitaxtu la takgaman makgasa xtawan takgaman nichan ana niku kgamanankan laktayakan ama tsakat likgaman ama limakankan lhakat likgaman ama wakg lata tuku akgtsankgekgonit yan tiku tlawa makgasa lata he akit tantli tantli xalakg tsitsakgen yan tiku tantliputun akit xikklakskilh xtawilakgolh wakg lata wakg likatuwa nima tantlin xlakata akxni paxkua lanka paxkua nak kinpilatamankan ana xtatantlikgolh  ana  tantlikan wa ama kintalakapastakni chuna ixwa watiya.
Anan lhuwa tu tlan anan lhuwa tu tlan lichiwinankan xalak kinpulataman lhuwa xtakatsin nakkawaniyan akgtun nema juu kilitachiwinanka wi anan lhuwa la ma tu xalikuchu tuwan la ama akgtun tuwan nekiwanika wanikan tsiis ama tuwan makuan lata ama kakit ana lan tuwan ana juu nak kinpukataman pueblillo pakgaxtakni lan ni lanka staka aktsu staka ama chi tuwan mat cu´chi  ti ni tln katsan tilitakxtu xkgalhni tilitakxtu xasakgsina ti tsankgani kalhni ama natlan wa chu tijikuanit snun sanpapa wa ama natlan li paxa chu chi ama nak kawaniyan mat wata akxni para wix tlan makgkgatsiya kawat xachuchut mat kamapupi pakgnajatsa xatuwan chu kamuju akgtun pokge chuchut nak xalu lata kapupulh ama tuwan tlan kata pupulh chu chi ama tsina kamixli tlan chi kgota xakgachuchut mat ama makuan sasakgsina  ti ni tlan makgkgatsi ti tsankgani kgalhni natlan mat tijikuanit ama tu natlawa namapupi ama xpakgen tuwan tsiis nak aktun lankga xalu kamapupilh lata tlan kgalhtaxtunit lata tsina chichi ninalahmuju chuchut lata ama puru kgachuchut ama tuwan kalimaktawakalh kalipaxli lata kalitamakgsnakalh chu chi ama lata tsina tlana chichi kamaktawakalh chu chi ama nakaxtla lan natxtuni lan lakgatsotsokgo nawan lakapinini mat tijikuanit namakgxtakga tajikua chu chi ama kilitachiwinankanan juu kinatsetne kintsiyuna chu ama lan takatsin xatuwanialikuchu 
Ana nik lama ni tu lama mas, lama nama watiya talamana lak laktsuxelekgne nama xa lakxtakgne laktsu xelekgne laktsu slut ama wanikan tataxtu xpaluwa tiyat taxtu xlumati ana nik lama kinpulataman ni mas, ni mas tukgaxila lama lambara tlan tlan lata lama ama nami xkawanikan pala lama lhuwa tu mas nitlan nacxuxu min tacxanan pero hu nik lama nak kinpulataman ni tu mas lama watiya. 
Nak kinpulataman chi talagxtapalinit tsiná  wana, tsukukajá  tlawakan aná ni laktlawán putlaw, xtijia, ne lak tsu tijia xtawaniit chi  katilnaga  katlawamaka, katasnamaka  uyu tramikan nama limakaxikan la chiwix, wana lakata yaj na ta laktlawan aná ni kaputlunin, ni takanatayá kawayo, nachu ni ti na tantuwasa,  chi tsukumajá staka kin pulataman, wa xlakata  kamatilanga tlawakoka tijia, akgxni ti an nak ix katukuxtu, wití lin ix putlaw, anachí ne makgmakgatni pulatamat wi takuxtu ltlan ankan ktsu ktijia, latayá wi lak tsu tijia,  ti lin ákgchich,wi ti tlawaan, ta an ix kitsistankanin, uyu tatlawa an, wa,  wa jae nikula tasi  ix tijia kin pulataman.
Kaman kawaniyaw amá talakapastakgni, tiku kalhi este, kawaní akit kin kamanan, tlan kalakapastaktit tuku ni ka  kawawi  tuku na waná,pero ni wix kaxhiwinanti, chuná chuná kawaní minapakan, chuna chi kalikali laktsukaman pero taklhuqika ka++akatuno pero este  katachiwinan, chali chali, niikamakatsankaniw tachiwin porque este, astan tuwajá ki taxrtu,  ztz nz patinanaw con toda kin mi napa, min kuku aku na kit nak makpasaya , kawani mina kukún talamananchá, nak kachikin nachuná kawaninit, y nachuná kin tawaniyachá tachiwín,  la minachá katachiwinama chali chalí, walí kalipaxkiyán kawaní akit, na tawilana kilaktsumajan laktsune, na ta katsinitilá, katachiwinan xa tutunaku na chu natakatsinitilhá, watiyá, watiyá.  

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • audio_id - id numérico para archivo de audio

  • audio_file - nombre del archivo de audio

  • duration_ms - duración del audio en milisegundo

  • prompt_id - id numérico para el prompt

  • prompt - pregunta para el usuario

  • transcription - transcripción de la respuesta al audio

  • votes - número de personas quiene aprobaron cierta transcripción

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • language - nombre de la lengua

  • split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip

  • char_per_sec - cuántos caracteres de transcripción por segundo de audio.

  • quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |

    • transcription-length - caracteres por segundo inferior a 3 caracteres por segundo

    • speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo

    • short-audio - duración del audio inferior a 2 segundos

    • long-audio - duración del audio superior a 30 segundos

¡Participa!

Enlaces comunitarios

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2