Common Voice Spontaneous Speech 2.0 - Michoacán Mazahua
License:
CC0-1.0
Steward:
Common Voice
Task: ASR
Release Date: 12/5/2025
Format: MP3
Size: 225.51 MB
Share
Description
A collection of spontaneous spoken phrases in Michoacán Mazahua.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Jñatjo — Michoacán Mazahua (mmc)
Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Michoacán Mazahua (mmc). El conjunto de datos contiene 871 representando 12 horas de grabaciones (12 horas validadas) de 12 hablantes.
Idioma
La variante de Michoacán de mazahua o ‘Jñatjo’ es hablada en el norte Michoacán, México. Las tenencias donde se habla esta variante son Crescencio Morales, Boca de la Cañada, Rincón de San Mateo, El Tigre, La Barranca, La Dieta, La Fundición, Macho de Agua y Río de Guadalupe. Pertenece a la familia lingüística otomangue, subrama otopameana-central. Los datos obtenidos para este corpus de datos provienen de la tenencia de Crescencio Morales, ubicado en el municipio de Zitácuaro.
Partición de datos para modelado
| Partición | Cuenta |
|---|---|
| Train | 565 |
| Test | 187 |
| Dev | 134 |
Transcripciones
Preguntas:
195Duración total:
11:20:35 [h:m:s]Longitud promedio de transcripción (en carácteres):
328Duración promedio:
46.88[s]Duración validada:
40835.592[s]Horas totales:
11.34[h]Horas validas:
11.34[h]
Sistema de escritura
El Mazahua de Michoacán se escribe utilizando alfabeto latino. Ha habido múltiples propuestas de alfabeto para el Mazahua y sus dos variantes, la del Estado de México (Jñajtro) y la de Michoacán (Jñatjo), las cuales no toman en cuenta los tonos de las palabras habiendo mucha confusión durante la escritura, los tonos de la lengua son sistémicos ya que pueden contrastar funciones gramaticales (posesión, demostrativos, definitud, tiempo, aspecto y modo) y determinar el significado de las palabras
Por ejemplo:
‘kjǚjnü’ metate – ‘kjǜjnü’ maíz
‘‘ë̀dyi’ llevar animales – ‘ ‘ë̂dyi’ medir
Tabla de símbolos
Para esta propuesta de alfabeto, se retomará el sugerido por la Universidad Intercultural del Estado de México expuesto en la tesis de Gloria Vargas Bernal (2013). Se tiene la visión de hacerlo más específico en el caso de los tonos.
Consonantes El Mazahua de Michoacán posee un inventario consonántico de 51 segmentos fonológicos. Hay oclusivas, implosivas, fricativas, africadas, nasales, aproximantes, laterales, vibrantes y glotales. También en estos segmentos hay realización de articulaciones secundarias como: glotalización, preaspiración, aspiración, labialización, prenasalización. En la propuesta de alfabeto para esta variante, los sonidos labializados [w] se consideran como una realización de la vocal cerrada [u], obteniendo 47 grafías.
Consonantes simples b, m, t, s, z, ts, ch, n, l, r, rr, x, zh, ñ, y, k, g, j, ‘ (salto glotal)
Articulaciones secundarias
Glotalización: b’, p’, t’, d’, s’, ts’, ch’, s’, dy, k’
Preaspiración: jm, jn, jñ, jdy
Aspiración : pj, tj, sj, tsj, chj, kj
Labialización: En esta articulación secundaria, se hace énfasis en el uso de la consonante seguido de una vocal cerrada ‘u’. ku, ngu
Prenasalización: mb, nd, ndz, ndzh, ng, ngu
Vocales El mazahua tiene inventario de 15 vocales: 9 orales y 6 nasales.
Vocales orales Se usa diéresis en la vocal para indicar la abertura. Los símbolos en corchetes corresponden a los sonidos presentes en Alfabeto Fonético Internacional (AFI).
a = [a]
ä = [ə]
e = [e]
ë = [ɛ]
i = [i]
o = [o]
ö = [ɔ]
u = [u]
ü = [ɨ]
Vocales nasales Se usa diacrítico macron en la vocal para indicar nasalidad.
ā = [ã]
ē = [ẽ]
ī = [ ĩ ]
ō = [õ]
ū = [ũ]
ǖ = [ ɨ̃ ]
En Unicode, “ǖ” tiene código 01D6 en minúscula y 01D5 en mayúscula.
Tonos (diacríticos en Unicode) El mazahua posee cuatro tonos: alto, bajo, ascendente y descendente. Los diacríticos se escriben encima de la primera vocal.
Tono alto: [ ́ ], 02CB
Tono bajo: [ ̀ ], 02CB
Tono descendente: [ ̂ ], 02C6
Tono ascendente: [ ̌ ], 02C6
Ejemplo:
ndzíncho – nueve
jmū̀ru – huevo
pjâd'ül – caballo
jyö̌rga – lagartija
Ejemplos
Preguntas
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Pjéko mbéka dyà gá jóʼo kʼa kʼôkútsʼu?
Jânge gá jnū̌tji yó xë́dyi?
Pjéko gí sôʼna koyája cultura o koyája jñátjo?
Pjéko rá sôʼo rá tsʼáji kʼa rá sígido rá jñátji jñátjo yó tǐʼi kʼo kʼa gí të́ʼë kʼa rá ñátji jñátjo?
Ná bes 'i já píts'iji?
Respuestas
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
O má sé'e yá gá jók'ò ró kjǔgü k'e má ró sä́jä k'a Bṓndo 'ângo rí b'ǘ'ü jña ngá mí xìs'i, dyá mí pâra rá jñá'a nú ñângistjya jé k'o yó të́'ë dyà mi né'e rá núkji e mí xíts'i yá mí pâraji rék'o rí jñá'a pjéko rí mā̀mā. Ná angézeji 'àt'a k'e já ró xôrü nú ñângistjya
Yó xë́dyi m'a dyá jó'tiji nést'a'ò rí pà'tü m'adyà rí pà'tü ná jó'o rá m'ǒs'üji
Nuzgó k'o rí s'ô'n'a k'o 'náño jñá'a, gó 'náño të́'ë, à 'náño ñǐñi, rí nú'u nójo jângo gá jñáji angezeji nuts'k'ó rí né'e rá xôrü jângo gá jñá'a angezeji nuk'a kjâ'a má gó mí ná së̌zhi ngék'o dyá rá dyá rí xôrü ngék'o ts'íjk'e, ts'íjk'e rá xôrü jângon... ts'i jñá'a k'o 'náño jñá'a ngéjnu gó yó të́'ë, k'o 'náño ñá'a jñá'a, ná zògü gá ñáji, ná zògü xíji yó jñá'a, k'o ñá'a angezeji
Yó tǐ'i k'o k'a í të́'ë dyà sô'o rá ñáji nú jñátjo, nú má rá né'e rá ángezeji rá ñájii k'o yó t'á'má pjë́chiji rá jíchiji 'u máji yó rá jyòd'ü ték'o pjë́chib'e rá ñá'a nú jñátjò rá jñū́s'i kja skuǎma, rá dyépe rá ñáji, rá ñáji ngék'o rá xôrüji sàk'ü
Nuts'k'ó píts'iji 'ó pândaji kja ndéje ngéko rí súdye
Posprocesamiento recomendado
El sistema de escritura propuesto para esta variante de mazahua queda abierto a futuras modificaciones y comentarios.
Campos
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id- UUID hasheado de cierto usuarioaudio_id- id numérico para archivo de audioaudio_file- nombre del archivo de audioduration_ms- duración del audio en milisegundoprompt_id- id numérico para el promptprompt- pregunta para el usuariotranscription- transcripción de la respuesta al audiovotes- número de personas quiene aprobaron cierta transcripciónage- edad de los hablantes1gender- genero de los hablantes1language- nombre de la lenguasplit- para el modelado de datos, indica a qué subconjunto de datos pertenece este clipchar_per_sec- cuántos caracteres de transcripción por segundo de audio.quality_tags- una evaluación automatizada del par transcripción-audio, separadas por|transcription-length- caracteres por segundo inferior a 3 caracteres por segundospeech-rate- tasa de caracteres por segundo superior a 30 caracteres por segundoshort-audio- duración del audio inferior a 2 segundoslong-audio- duración del audio superior a 30 segundos
¡Participa!
Enlaces comunitarios
Contribuir
Agradecimientos
Colectivo 'Jñatjo Ndixu', Santa Martha del Sur, Coyoacán, Ciudad de México.
Maestros Silverio Benítez García y Orlando Blanco y alumna María del Carmen de Jesús Guzmán, integrantes de Puntos de Innovación, Libertad, Arte, Educación y Saberes (PILARES), Ciudad de México.
Coordinaciones de Posgrado y Licenciatura de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Gracias por todo el apoyo recibido y por habernos brindado el Laboratorio de Lingüística (D110) para llevar a cabo nuestras grabaciones.
Mtro. Edgar Alberto Madrid Servin, coordinador y docente de la Licenciatura en Lingüística y Dr. Lucio Armando Mora-Bustos, docente e investigador de Lingüística, ambos de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Estamos totalmente agradecidos por su orientación y comentarios.
Autores de la ficha técnica
Rosario de Fátima Álvarez García <fatimaalvarezgr96@gmail.com>
Juan Castro Gallardo <jcgallardho@gmail.com>
Lorena Abigail Benítez Cruz <abigailbenitez66@gmail.com>
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Footnotes
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2