Common Voice Spontaneous Speech 2.0 - Papantla Totonac
License:
CC0-1.0
Steward:
Common Voice
Task: ASR
Release Date: 12/5/2025
Format: MP3
Size: 205.51 MB
Description
A collection of spontaneous spoken phrases in Papantla Totonac.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Papantla Totonac — Papantla Totonac (top)
Esta hoja de datos ha sido generada automáticamente, nos encantaría incluir más información, si deseas ayudar, ¡ponte en contacto con nosotros!
Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Papantla Totonac (top). El conjunto de datos contiene 389 representando 13 horas de grabaciones (13 horas validadas) de 10 hablantes.
Partición de datos para modelado
| Partición | Cuenta |
|---|---|
| Train | 316 |
| Test | 65 |
| Dev | 78 |
Transcripciones
Preguntas:
143Duración total:
12:11:32 [h:m:s]Longitud promedio de transcripción (en carácteres):
652Duración promedio:
112.83[s]Duración validada:
43401.096[s]Horas totales:
12.19[h]Horas validas:
12.06[h]
Ejemplos
Preguntas
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Tuku lank'a tapuwan tlawaputuna xlimakgas, chu wana?
Kilitachiwinanti tu lan xtakatsit minpulataman.
Ana ni lapat tukuya lanka silakgni lama?
Nikula tasi xatiji'a minpulataman?
Kgalhiya wix tukuya tlan talakapastakni kgalhi ne paxkiya?
Respuestas
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
Akit xakklakaskilh nakkinpulataman kintapuwan nema lanka kpuwan xchalh nkk municipio ana niku lakapuxkuyan taskujut ananiku nikutlan xmakaxtlawaniw kintijiakan akgtuminika pulataman xlakata tlan natlawanaw putlaw ana niku nikatlan la uchu walakgolh nak kinpulataman, nilay pataxtukan laktsu puxkga ana niku talaktlawan makgalhtawakgenanin limakgalhtawakgen tawilanankgolh takimakgalhchokgoy chi xlakata nila tapataxtuy chi akxni senan staka laktsu puxkga xawa liminkgoy lata tuku lixkajnit nilay tajukan ama xaklakaskilh ama xkaxtlawaka xkinmakgtayan puxku mapakgsina naxaklakaskilh xtaspitpa ama kilhtamaku ana niku ama kintapakganat xtachiwinalh kintachiwinkan litutunaku xlakata nixlakgtsankalh nachuna xtalhakganalh kintalhakanankan ama xasnapapa nalan tasi maski nixtawalilh chali chali akxni xpaxkuajnakan la uchu tlawakan 15 de agosto oso kinpaskuankan nakkinpulataman wakg xtatlanakgolh snapapa xtlakgatkan litutunaku tawilana chatun chatuy tiku talhakgananku pero sputma ama akit klakaskinaw nixlakgsputkgolh niwatiya nachuna xaklakaskilh ama kintacristianunkan xlmakgachipajku la akxni lamakgachipayaw akxni tlen xlawaniyae puskatin lalakchixkuwin lalakkgawasan lalaktsumajan chi akgsputkgoni chi ama xlakata kakatsi wana nikalitawakan nikaliskujkan stakayawakan nak chitkan xanatikun nitakatsi para takatsi tawilana nakchiki xkamajkan talapula nak katijin akaniniwa talatayay talatakgalhchiwinaman lalakgkgawasan la laktsumajan yan talakapastaka la uchu wanaw nachuna kitaxtu la takgaman makgasa xtawan takgaman nichan ana niku kgamanankan laktayakan ama tsakat likgaman ama limakankan lhakat likgaman ama wakg lata tuku akgtsankgekgonit yan tiku tlawa makgasa lata he akit tantli tantli xalakg tsitsakgen yan tiku tantliputun akit xikklakskilh xtawilakgolh wakg lata wakg likatuwa nima tantlin xlakata akxni paxkua lanka paxkua nak kinpilatamankan ana xtatantlikgolh ana tantlikan wa ama kintalakapastakni chuna ixwa watiya.
Anan lhuwa tu tlan anan lhuwa tu tlan lichiwinankan xalak kinpulataman lhuwa xtakatsin nakkawaniyan akgtun nema juu kilitachiwinanka wi anan lhuwa la ma tu xalikuchu tuwan la ama akgtun tuwan nekiwanika wanikan tsiis ama tuwan makuan lata ama kakit ana lan tuwan ana juu nak kinpukataman pueblillo pakgaxtakni lan ni lanka staka aktsu staka ama chi tuwan mat cu´chi ti ni tln katsan tilitakxtu xkgalhni tilitakxtu xasakgsina ti tsankgani kalhni ama natlan wa chu tijikuanit snun sanpapa wa ama natlan li paxa chu chi ama nak kawaniyan mat wata akxni para wix tlan makgkgatsiya kawat xachuchut mat kamapupi pakgnajatsa xatuwan chu kamuju akgtun pokge chuchut nak xalu lata kapupulh ama tuwan tlan kata pupulh chu chi ama tsina kamixli tlan chi kgota xakgachuchut mat ama makuan sasakgsina ti ni tlan makgkgatsi ti tsankgani kgalhni natlan mat tijikuanit ama tu natlawa namapupi ama xpakgen tuwan tsiis nak aktun lankga xalu kamapupilh lata tlan kgalhtaxtunit lata tsina chichi ninalahmuju chuchut lata ama puru kgachuchut ama tuwan kalimaktawakalh kalipaxli lata kalitamakgsnakalh chu chi ama lata tsina tlana chichi kamaktawakalh chu chi ama nakaxtla lan natxtuni lan lakgatsotsokgo nawan lakapinini mat tijikuanit namakgxtakga tajikua chu chi ama kilitachiwinankanan juu kinatsetne kintsiyuna chu ama lan takatsin xatuwanialikuchu
Ana nik lama ni tu lama mas, lama nama watiya talamana lak laktsuxelekgne nama xa lakxtakgne laktsu xelekgne laktsu slut ama wanikan tataxtu xpaluwa tiyat taxtu xlumati ana nik lama kinpulataman ni mas, ni mas tukgaxila lama lambara tlan tlan lata lama ama nami xkawanikan pala lama lhuwa tu mas nitlan nacxuxu min tacxanan pero hu nik lama nak kinpulataman ni tu mas lama watiya.
Nak kinpulataman chi talagxtapalinit tsiná wana, tsukukajá tlawakan aná ni laktlawán putlaw, xtijia, ne lak tsu tijia xtawaniit chi katilnaga katlawamaka, katasnamaka uyu tramikan nama limakaxikan la chiwix, wana lakata yaj na ta laktlawan aná ni kaputlunin, ni takanatayá kawayo, nachu ni ti na tantuwasa, chi tsukumajá staka kin pulataman, wa xlakata kamatilanga tlawakoka tijia, akgxni ti an nak ix katukuxtu, wití lin ix putlaw, anachí ne makgmakgatni pulatamat wi takuxtu ltlan ankan ktsu ktijia, latayá wi lak tsu tijia, ti lin ákgchich,wi ti tlawaan, ta an ix kitsistankanin, uyu tatlawa an, wa, wa jae nikula tasi ix tijia kin pulataman.
Kaman kawaniyaw amá talakapastakgni, tiku kalhi este, kawaní akit kin kamanan, tlan kalakapastaktit tuku ni ka kawawi tuku na waná,pero ni wix kaxhiwinanti, chuná chuná kawaní minapakan, chuna chi kalikali laktsukaman pero taklhuqika ka++akatuno pero este katachiwinan, chali chali, niikamakatsankaniw tachiwin porque este, astan tuwajá ki taxrtu, ztz nz patinanaw con toda kin mi napa, min kuku aku na kit nak makpasaya , kawani mina kukún talamananchá, nak kachikin nachuná kawaninit, y nachuná kin tawaniyachá tachiwín, la minachá katachiwinama chali chalí, walí kalipaxkiyán kawaní akit, na tawilana kilaktsumajan laktsune, na ta katsinitilá, katachiwinan xa tutunaku na chu natakatsinitilhá, watiyá, watiyá.
Campos
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id- UUID hasheado de cierto usuarioaudio_id- id numérico para archivo de audioaudio_file- nombre del archivo de audioduration_ms- duración del audio en milisegundoprompt_id- id numérico para el promptprompt- pregunta para el usuariotranscription- transcripción de la respuesta al audiovotes- número de personas quiene aprobaron cierta transcripciónage- edad de los hablantes1gender- genero de los hablantes1language- nombre de la lenguasplit- para el modelado de datos, indica a qué subconjunto de datos pertenece este clipchar_per_sec- cuántos caracteres de transcripción por segundo de audio.quality_tags- una evaluación automatizada del par transcripción-audio, separadas por|transcription-length- caracteres por segundo inferior a 3 caracteres por segundospeech-rate- tasa de caracteres por segundo superior a 30 caracteres por segundoshort-audio- duración del audio inferior a 2 segundoslong-audio- duración del audio superior a 30 segundos
¡Participa!
Enlaces comunitarios
Contribuir
Agradecimientos
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Footnotes
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2
