Common Voice Spontaneous Speech 3.0 - Michoacán Mazahua
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 3/22/2026
Format: MP3
Size: 226.41 MB
Share
Description
A collection of spontaneous responses to questions in Michoacán Mazahua (Jñatjo).
Specifics
Considerations
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Jñatjo — Michoacán Mazahua (mmc)
Esta ficha técnica corresponde a sps-corpus-3.0-2026-03-09 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Jñatjo [Michoacán Mazahua - mmc]. El conjunto de datos contiene 871 representando 11.23 horas de grabaciones (11.23 horas validadas) de 12 hablantes.
Idioma
La variante de Michoacán de mazahua o ‘Jñatjo’ es hablada en el norte Michoacán, México. Las tenencias donde se habla esta variante son Crescencio Morales, Boca de la Cañada, Rincón de San Mateo, El Tigre, La Barranca, La Dieta, La Fundición, Macho de Agua y Río de Guadalupe. Pertenece a la familia lingüística otomangue, subrama otopameana-central. Los datos obtenidos para este corpus de datos provienen de la tenencia de Crescencio Morales, ubicado en el municipio de Zitácuaro.
Partición de datos para modelado
Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.
Clips de audio
| Categoría | Clips | % |
|---|---|---|
| Transcrito y validado | 871 | 100.0% |
| Transcrito pendiente | 0 | 0.0% |
| Sin transcribir | 0 | 0.0% |
Particiones de entrenamiento
| Categoría | Clips | % |
|---|---|---|
| Train | 607 | 69.7% |
| Dev | 183 | 21.0% |
| Test | 81 | 9.3% |
| Sin asignar | 0 | 0.0% |
Cobertura de particiones de entrenamiento: 871 de 871 clips transcritos y validados (100.0%)
Transcripciones
Estado de transcripción
| Categoría | Clips | % |
|---|---|---|
| Validadas | 871 | 100.0% |
| Pendientes | 0 | 0.0% |
| Edited | 305 | 35.0% |
Sistema de escritura
El Mazahua de Michoacán se escribe utilizando alfabeto latino. Ha habido múltiples propuestas de alfabeto para el Mazahua y sus dos variantes, la del Estado de México (Jñajtro) y la de Michoacán (Jñatjo), las cuales no toman en cuenta los tonos de las palabras habiendo mucha confusión durante la escritura, los tonos de la lengua son sistémicos ya que pueden contrastar funciones gramaticales (posesión, demostrativos, definitud, tiempo, aspecto y modo) y determinar el significado de las palabras
Por ejemplo:
‘kjǚjnü’ metate – ‘kjǜjnü’ maíz
‘‘ë̀dyi’ llevar animales – ‘ ‘ë̂dyi’ medir
Tabla de símbolos
Para esta propuesta de alfabeto, se retomará el sugerido por la Universidad Intercultural del Estado de México expuesto en la tesis de Gloria Vargas Bernal (2013). Se tiene la visión de hacerlo más específico en el caso de los tonos.
Ejemplos
Preguntas
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Pjéko má manualidad gí néʼe rí dyä̀tʼä?
Pjéko kjâʼa nú pjántëjë kʼa portante pa nutsʼkʼéji?
Jânge gá k'a'a yó pá'a?
Jânge ndé gá k'â'a jangunxörü?
Jângé gá jyèzheji yó mbáne?
Respuestas
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
Núkja rí kjâ'a má xôm'a má rí s'ä́t'ä kja íngǔm'ü rí jôd'ü pjék'o rá sí'i, rá ñôna, ndízik'o já sódya k'a ts'íjk'a má yá rá zǘrü nú hora rá 'éji, rá 'éji jyá má yá rá jônxora rá b'ǚb'ü ndóra jók'ü téxi k'o xíb'ë́zhi í xîbi yó mùjm'u yó s'ä̌b'ä k'ó'o ngó ndzôd'ü mí ndzhä̌'ä ó mí xôm'a jyá má rá nguârü, yá rá jônxora ná jó'o yá rá jôd'ü ó rá kjâ'a
Nú mbáne má bu'é'e rá pòjtü nú b'íjtu ngék'o dyà kjâ rá bu'é'e
Nuts'k'ó m'á sîrí né'e rá sí'i m'á rá s'ì' m'á xôra rá s'í' ná ndéje k'a p'ébi pjíño ó majíyo ngé t'é'me k'o m'á s'í ná jó'o 'vnkü nú café dyága jó'o pan nuts'k'ó
Nú mbáxua k'a kjâ'a yó jñátjo kja jñíñi ngé má dyá gí pédye nú kjë́'ë nú... kjë́'ë dyá rá má rá s'é'e k'a ndá yó kjë́'ë má xôm'a 'ä̀t'äji, 'ä̀t'äji café, 'ä̀t'äji ponche, 'ä̀t'äji piñata, piñata k'o kjâ'a tí lúlu kjâ'a tí dulce ngízik'o rá mbä̌reji má xôra dyárá 'ùni jñôna téxi yó të́'ë k'o rá s'ä̌jä, téxi yó të́'ë k'o k'âra, dyá rá ndé... dyá rá nguárü nú mbáxua k'a té'b'eji téxe nú xôm'a 'ó ndé yó kjë́'ë
Nuts'k'ojmé rí 'ä̀t... rí..., rí téjm'ejmé má mbáxua má d'ôs'e má à jñíñi ngé, es..., 'ä̀tji míxa kjâji mbáxua pjópjmé yó..., yó..., yó cuete, ndé k'a rí téjm'ejmé kja mbáxua. Rí 'ä̀t'..., téb'ejmé má... cada áño rí téjm'ejmé í má mbáxua rí pójme rí, má pójme rá má nújné míxa rá... jângo gá kjâ'a nú mbáxua póji téxi yó të́'ë pa núji míxa
Campos
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id- UUID hasheado de cierto usuarioaudio_id- id numérico para archivo de audioaudio_file- nombre del archivo de audioduration_ms- duración del audio en milisegundosprompt_id- id numérico para el promptprompt- pregunta para el usuariotranscription- transcripción de la respuesta al audiovotes- número de personas quiene aprobaron cierta transcripciónage- edad de los hablantes1gender- genero de los hablantes1language- nombre de la lenguasplit- para el modelado de datos, indica a qué subconjunto de datos pertenece este clipchar_per_sec- cuántos caracteres de transcripción por segundo de audio.quality_tags- una evaluación automatizada del par transcripción-audio, separadas por|transcription-length- caracteres por segundo inferior a 3 caracteres por segundospeech-rate- tasa de caracteres por segundo superior a 30 caracteres por segundoshort-audio- duración del audio inferior a 2 segundoslong-audio- duración del audio superior a 5 minutos
Involúcrate
Enlaces comunitarios
Discusiones
Contribuir
Agradecimientos
Autores de la ficha técnica
Rosario de Fátima Álvarez García <fatimaalvarezgr96@gmail.com>
Juan Castro Gallardo <jcgallardho@gmail.com>
Lorena Abigail Benítez Cruz <abigailbenitez66@gmail.com>
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Footnotes
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2