Common Voice Spontaneous Speech 3.0 - Papantla Totonac
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 3/22/2026
Format: MP3
Size: 206.19 MB
Share
Description
A collection of spontaneous responses to questions in Papantla Totonac (top).
Specifics
Considerations
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
top — Papantla Totonac (top)
Esta ficha técnica corresponde a sps-corpus-3.0-2026-03-09 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para top [Papantla Totonac - top]. El conjunto de datos contiene 417 representando 10.5 horas de grabaciones (10.36 horas validadas) de 10 hablantes.
Partición de datos para modelado
Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.
Clips de audio
| Categoría | Clips | % |
|---|---|---|
| Transcrito y validado | 413 | 99.0% |
| Transcrito pendiente | 0 | 0.0% |
| Sin transcribir | 4 | 1.0% |
Particiones de entrenamiento
| Categoría | Clips | % |
|---|---|---|
| Train | 165 | 39.6% |
| Dev | 152 | 36.5% |
| Test | 96 | 23.0% |
| Sin asignar | 4 | 1.0% |
Cobertura de particiones de entrenamiento: 413 de 413 clips transcritos y validados (100.0%)
Transcripciones
Estado de transcripción
| Categoría | Clips | % |
|---|---|---|
| Validadas | 413 | 100.0% |
| Pendientes | 0 | 0.0% |
| Edited | 159 | 38.5% |
Ejemplos
Preguntas
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Tlan tu anankgoy nak minpulataman?
Mapakgsinanin tamastay lhuwa tamakgtayan nakminpulataman?
Nikula tasi xtijia min pulataman?
Kalichiwinanti xalakgtsitsekge tantlin xalak minpulataman.
Tuku anankgoy nak minpulataman neje lakgmakuan?
Respuestas
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
Akit kwi lakatsu pulataman La Guasima nitu putlaw, kamatakta nakxpulakitat kin pulataman chu kamakgalhi ama wanikan taxi, tajukan chakitsis xlakata tlan kinkamakachanan kachikin Papantla, chu xokgoyaw puxamakaw peso chatunu chu palaktaspitpala nak kinchik apechuna kamakgalhipara putlaw nitu hora xatamakgstokgne. chi pala tlawapina lakgtati hora, nakputlaw itat hora.
*Ana´ niklama tayana tluwa kiwin nelan tastaknit lakgmakgan ama´ akit ne kakxilhnit ju´u nechankan laktsu puksnankiwi, lhkakankiwi, talaxkga, nachu kakxila ana nitawakga xipa, ixkiwi chalankan lan tastaka, nachuna wi matlukg , nawilapa wanikan kapulin kgalasni chu nawilapa wanikan chirimuya nachu makgalakan ne kiwin tayana o ne likuchinankan tasun nachuna wi tunu ne lakati litawaka xanat kgeskga wachi litasputla skururujaka chalankan tastaka nachu wi skururujaka wilapa akgxixitjaka, lankgajaka , y tu akin namakalaya matakuxtunanin ne lanka tastaka chalanka kukalhilh nachu este wilapa tapakuwi lhpaw y katuwa laktsu tawaka smukukanchaw wachi ama´ tapakuwi ix tachiwin luwan mango. *
*Je kan este kan kawaniyán, namá lak kgawasán xlakán tunu xlá tamak klakaskin namá likgachiwin, la akin laklangatá tunu la porque akin laklangata titumayá kin talakapastakgnin, namá lak kgawasán , x lakán talakapastagnikán, namá lak kgawasan taralikilhchanimana para tachiwinan tsumat y tsumat nachuná, o witi chiwinama tunu tu lichiwinama niti katsikgo xtalakapastakgni la lachi nama tatanú ni tlán tijia ni ta an lhuwa,y witi pus ni akxtum lak kgawasán wi ti chiwinan tachiwinan para ti tachiwinan chatumi tsumat o ta an kskuela tarakalaskiní tu ta an ta tlawá, tu kama kamatsokgoma ix makgalhtawakgenakan watama nama chi xlakan lak kgawasan nikulá mas, akin ni la kamaslakgxtalikoyá lak kgawasán, chuná ma watiyá watiyá. *
Ju'u nak kinpulataman lan tlawakan xatawa pinila pula putsakan tamawakan xapin chu natamawaparakan pakglhcha tunalikaxtlawakan ama wanikan xaskawawa xchaxpan kiwi, munikan ukun, munikan achulalaktsu likan xakgxakga akgnunan, chu matsat na putsakan xaliwa xtilan xaliwa paxni tu lakgatikan pula tu natlawakan mapupikan xapin, chu tsukukan lakgswakakan talakgmujukan wakg xalaktsu talhtsi akxni tlan smatanka tlawakanita matiwakakan aktsu xalu tsukukan munikan xatsilit akxni chichita lakgmujunikan xataxwan xataswakga pin chu xapakglhcha tlan kgalhikan kachalh uyu lakwalhakan lakwalhakan akxni kgawakaja xatsilit tlana chanita tlana matiktikan.
Akit klakgati lhakganan xa lata nikula jkakgalhi kin talhakgan klakgati akxni lhkaknan kwili kin talhakgan xalakgsnapapa xa lata xalakg spupokgo xa lata nikula katasilh xawa na tlan klikatsi akxni kwili ki lhakgat nima akxni lhkaknan tunkan snun ktsukuy xkgekga ama kintaxkgakgat tasini naj kilhakgat lixkajnit tasi la achu akukchima nak kin putaskujut wa xlakata tlan kakxila neje kamak lhakganan xalakgsnapapa klakgati lilhakganan xlakata wa ni liwaj tasi tasini xaxkgekgat nachuna akxni lhkaknan kawali nima lakstakaka ki lhakgat nima tlan natanuni un ni kamak klixkgekga snun xakata como lhkaknan ju'u nak kin pulataman lijikuanant lhkaknan wa xlakata tanu tanu kuali ki lhakgat xawa akgtum kiltamaku makgtuy kpaxa y makgtuy makgtutu talakgpali ki lhakgat y wa xkgekga akxni liwaj lhkaknan akxni lonkgan naliwaj najkatsi neje ya nak kuali ki lhakgat nema xa maktsitsi nema laktsitsi ki lhakgat naj kakgalhi nima makxpalhman wa liwaj kuali ixlakata ni liwaj nak naklonkgkga katuwa nema klakgati wili xa makxpalhman chu xa la xa laktsu ki lhakgat nima ni liwi makxpalhman nakuali walikgo nixanimata nikula nitu nitu kmakkatsi lata ja'e xlakata nak kwili nachuna ki ki lhakgat xa litutunaku xasnapapa tlakg nakklakgati wali akxni tlawakan paxkua akxni ktantli akit akit ktantli ktantli xalakgtsitsekgan wa xlakata ana ktawili ki lhakgat ama xala xali tutunaku xlakata na tlan klimajkatsi chi ki lhatkgat kimakni kwili namakx namakxpalhman wama kualiy xakata snapapa tawalikan nima klitantli xa talhakgan xli tutunaku wakg klakgati nima kuali ki lhakgat laklan kgatsi wakg tlan kalimajkatsi nitu klakpuwan nachuna talismaninikgonit ti kintakxila niku la kuali kin talhakgan xala xalak u kin pulataman watiya.
Campos
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id- UUID hasheado de cierto usuarioaudio_id- id numérico para archivo de audioaudio_file- nombre del archivo de audioduration_ms- duración del audio en milisegundosprompt_id- id numérico para el promptprompt- pregunta para el usuariotranscription- transcripción de la respuesta al audiovotes- número de personas quiene aprobaron cierta transcripciónage- edad de los hablantes1gender- genero de los hablantes1language- nombre de la lenguasplit- para el modelado de datos, indica a qué subconjunto de datos pertenece este clipchar_per_sec- cuántos caracteres de transcripción por segundo de audio.quality_tags- una evaluación automatizada del par transcripción-audio, separadas por|transcription-length- caracteres por segundo inferior a 3 caracteres por segundospeech-rate- tasa de caracteres por segundo superior a 30 caracteres por segundoshort-audio- duración del audio inferior a 2 segundoslong-audio- duración del audio superior a 5 minutos
Involúcrate
Enlaces comunitarios
Discusiones
Contribuir
Agradecimientos
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Footnotes
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2