Common Voice Spontaneous Speech 3.0 - Papantla Totonac

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 206.19 MB


Share

Description

A collection of spontaneous responses to questions in Papantla Totonac (top).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

top — Papantla Totonac (top)

Esta ficha técnica corresponde a sps-corpus-3.0-2026-03-09 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para top [Papantla Totonac - top]. El conjunto de datos contiene 417 representando 10.5 horas de grabaciones (10.36 horas validadas) de 10 hablantes.

Partición de datos para modelado

Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.

Clips de audio

CategoríaClips%
Transcrito y validado41399.0%
Transcrito pendiente00.0%
Sin transcribir41.0%

Particiones de entrenamiento

CategoríaClips%
Train16539.6%
Dev15236.5%
Test9623.0%
Sin asignar41.0%

Cobertura de particiones de entrenamiento: 413 de 413 clips transcritos y validados (100.0%)

Transcripciones

Estado de transcripción

CategoríaClips%
Validadas413100.0%
Pendientes00.0%
Edited15938.5%

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

  1. Tlan tu anankgoy nak minpulataman?

  2. Mapakgsinanin tamastay lhuwa tamakgtayan nakminpulataman?

  3. Nikula tasi xtijia min pulataman?

  4. Kalichiwinanti xalakgtsitsekge tantlin xalak minpulataman.

  5. Tuku anankgoy nak minpulataman neje lakgmakuan?

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

  1. Akit kwi lakatsu pulataman La Guasima nitu putlaw, kamatakta nakxpulakitat kin pulataman chu kamakgalhi ama wanikan taxi, tajukan chakitsis xlakata tlan kinkamakachanan kachikin Papantla, chu xokgoyaw puxamakaw peso chatunu chu palaktaspitpala nak kinchik apechuna kamakgalhipara putlaw nitu hora xatamakgstokgne. chi pala tlawapina lakgtati hora, nakputlaw itat hora.

  2. *Ana´ niklama tayana tluwa kiwin nelan tastaknit lakgmakgan ama´ akit ne kakxilhnit ju´u nechankan laktsu puksnankiwi, lhkakankiwi, talaxkga, nachu kakxila ana nitawakga xipa, ixkiwi chalankan lan tastaka, nachuna wi matlukg , nawilapa wanikan kapulin kgalasni chu nawilapa wanikan chirimuya nachu makgalakan ne kiwin tayana o ne likuchinankan tasun nachuna wi tunu ne lakati litawaka xanat kgeskga wachi litasputla skururujaka chalankan tastaka nachu wi skururujaka wilapa akgxixitjaka, lankgajaka , y tu akin namakalaya matakuxtunanin ne lanka tastaka chalanka kukalhilh nachu este wilapa tapakuwi lhpaw y katuwa laktsu tawaka smukukanchaw wachi ama´ tapakuwi ix tachiwin luwan mango. *

  3. *Je kan este kan kawaniyán, namá lak kgawasán xlakán tunu xlá tamak klakaskin namá likgachiwin, la akin laklangatá tunu la porque akin laklangata titumayá kin talakapastakgnin, namá lak kgawasán , x lakán talakapastagnikán, namá lak kgawasan taralikilhchanimana para tachiwinan tsumat y tsumat nachuná, o witi chiwinama tunu tu lichiwinama niti katsikgo xtalakapastakgni la lachi nama tatanú ni tlán tijia ni ta an lhuwa,y witi pus ni akxtum lak kgawasán wi ti chiwinan tachiwinan para ti tachiwinan chatumi tsumat o ta an kskuela tarakalaskiní tu ta an ta tlawá, tu kama kamatsokgoma ix makgalhtawakgenakan watama nama chi xlakan lak kgawasan nikulá mas, akin ni la kamaslakgxtalikoyá lak kgawasán, chuná ma watiyá watiyá. *

  4. Ju'u nak kinpulataman lan tlawakan xatawa pinila pula putsakan tamawakan xapin chu natamawaparakan pakglhcha tunalikaxtlawakan ama wanikan xaskawawa xchaxpan kiwi, munikan ukun, munikan achulalaktsu likan xakgxakga akgnunan, chu matsat na putsakan xaliwa xtilan xaliwa paxni tu lakgatikan pula tu natlawakan mapupikan xapin, chu tsukukan lakgswakakan talakgmujukan wakg xalaktsu talhtsi akxni tlan smatanka tlawakanita matiwakakan aktsu xalu tsukukan munikan xatsilit akxni chichita lakgmujunikan xataxwan xataswakga pin chu xapakglhcha tlan kgalhikan kachalh uyu lakwalhakan lakwalhakan akxni kgawakaja xatsilit tlana chanita tlana matiktikan.

  5. Akit klakgati lhakganan xa lata nikula jkakgalhi kin talhakgan klakgati akxni lhkaknan kwili kin talhakgan xalakgsnapapa xa lata xalakg spupokgo xa lata nikula katasilh xawa na tlan klikatsi akxni kwili ki lhakgat nima akxni lhkaknan tunkan snun ktsukuy xkgekga ama kintaxkgakgat tasini naj kilhakgat lixkajnit tasi la achu akukchima nak kin putaskujut wa xlakata tlan kakxila neje kamak lhakganan xalakgsnapapa klakgati lilhakganan xlakata wa ni liwaj tasi tasini xaxkgekgat nachuna akxni lhkaknan kawali nima lakstakaka ki lhakgat nima tlan natanuni un ni kamak klixkgekga snun xakata como lhkaknan ju'u nak kin pulataman lijikuanant lhkaknan wa xlakata tanu tanu kuali ki lhakgat xawa akgtum kiltamaku makgtuy kpaxa y makgtuy makgtutu talakgpali ki lhakgat y wa xkgekga akxni liwaj lhkaknan akxni lonkgan naliwaj najkatsi neje ya nak kuali ki lhakgat nema xa maktsitsi nema laktsitsi ki lhakgat naj kakgalhi nima makxpalhman wa liwaj kuali ixlakata ni liwaj nak naklonkgkga katuwa nema klakgati wili xa makxpalhman chu xa la xa laktsu ki lhakgat nima ni liwi makxpalhman nakuali walikgo nixanimata nikula nitu nitu kmakkatsi lata ja'e xlakata nak kwili nachuna ki ki lhakgat xa litutunaku xasnapapa tlakg nakklakgati wali akxni tlawakan paxkua akxni ktantli akit akit ktantli ktantli xalakgtsitsekgan wa xlakata ana ktawili ki lhakgat ama xala xali tutunaku xlakata na tlan klimajkatsi chi ki lhatkgat kimakni kwili namakx namakxpalhman wama kualiy xakata snapapa tawalikan nima klitantli xa talhakgan xli tutunaku wakg klakgati nima kuali ki lhakgat laklan kgatsi wakg tlan kalimajkatsi nitu klakpuwan nachuna talismaninikgonit ti kintakxila niku la kuali kin talhakgan xala xalak u kin pulataman watiya.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • audio_id - id numérico para archivo de audio

  • audio_file - nombre del archivo de audio

  • duration_ms - duración del audio en milisegundos

  • prompt_id - id numérico para el prompt

  • prompt - pregunta para el usuario

  • transcription - transcripción de la respuesta al audio

  • votes - número de personas quiene aprobaron cierta transcripción

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • language - nombre de la lengua

  • split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip

  • char_per_sec - cuántos caracteres de transcripción por segundo de audio.

  • quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |

    • transcription-length - caracteres por segundo inferior a 3 caracteres por segundo

    • speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo

    • short-audio - duración del audio inferior a 2 segundos

    • long-audio - duración del audio superior a 5 minutos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2