Common Voice Spontaneous Speech 2.0 - Michoacán Mazahua

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 225.51 MB


Share

Description

A collection of spontaneous spoken phrases in Michoacán Mazahua.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Jñatjo — Michoacán Mazahua (mmc)

Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Michoacán Mazahua (mmc). El conjunto de datos contiene 871 representando 12 horas de grabaciones (12 horas validadas) de 12 hablantes.

Idioma

La variante de Michoacán de mazahua o ‘Jñatjo’ es hablada en el norte Michoacán, México. Las tenencias donde se habla esta variante son Crescencio Morales, Boca de la Cañada, Rincón de San Mateo, El Tigre, La Barranca, La Dieta, La Fundición, Macho de Agua y Río de Guadalupe. Pertenece a la familia lingüística otomangue, subrama otopameana-central. Los datos obtenidos para este corpus de datos provienen de la tenencia de Crescencio Morales, ubicado en el municipio de Zitácuaro.

Partición de datos para modelado

ParticiónCuenta
Train565
Test187
Dev134

Transcripciones

  • Preguntas: 195

  • Duración total: 11:20:35 [h:m:s]

  • Longitud promedio de transcripción (en carácteres): 328

  • Duración promedio: 46.88[s]

  • Duración validada: 40835.592[s]

  • Horas totales: 11.34[h]

  • Horas validas: 11.34[h]

Sistema de escritura

El Mazahua de Michoacán se escribe utilizando alfabeto latino. Ha habido múltiples propuestas de alfabeto para el Mazahua y sus dos variantes, la del Estado de México (Jñajtro) y la de Michoacán (Jñatjo), las cuales no toman en cuenta los tonos de las palabras habiendo mucha confusión durante la escritura, los tonos de la lengua son sistémicos ya que pueden contrastar funciones gramaticales (posesión, demostrativos, definitud, tiempo, aspecto y modo) y determinar el significado de las palabras

Por ejemplo:

  • ‘kjǚjnü’ metate – ‘kjǜjnü’ maíz

  • ‘‘ë̀dyi’ llevar animales – ‘ ‘ë̂dyi’ medir

Tabla de símbolos

Para esta propuesta de alfabeto, se retomará el sugerido por la Universidad Intercultural del Estado de México expuesto en la tesis de Gloria Vargas Bernal (2013). Se tiene la visión de hacerlo más específico en el caso de los tonos.

Consonantes El Mazahua de Michoacán posee un inventario consonántico de 51 segmentos fonológicos. Hay oclusivas, implosivas, fricativas, africadas, nasales, aproximantes, laterales, vibrantes y glotales. También en estos segmentos hay realización de articulaciones secundarias como: glotalización, preaspiración, aspiración, labialización, prenasalización. En la propuesta de alfabeto para esta variante, los sonidos labializados [w] se consideran como una realización de la vocal cerrada [u], obteniendo 47 grafías.

Consonantes simples b, m, t, s, z, ts, ch, n, l, r, rr, x, zh, ñ, y, k, g, j, ‘ (salto glotal)

Articulaciones secundarias

  • Glotalización: b’, p’, t’, d’, s’, ts’, ch’, s’, dy, k’

  • Preaspiración: jm, jn, jñ, jdy

  • Aspiración : pj, tj, sj, tsj, chj, kj

  • Labialización: En esta articulación secundaria, se hace énfasis en el uso de la consonante seguido de una vocal cerrada ‘u’. ku, ngu

  • Prenasalización: mb, nd, ndz, ndzh, ng, ngu

Vocales El mazahua tiene inventario de 15 vocales: 9 orales y 6 nasales.

Vocales orales Se usa diéresis en la vocal para indicar la abertura. Los símbolos en corchetes corresponden a los sonidos presentes en Alfabeto Fonético Internacional (AFI).

  • a = [a]

  • ä = [ə]

  • e = [e]

  • ë = [ɛ]

  • i = [i]

  • o = [o]

  • ö = [ɔ]

  • u = [u]

  • ü = [ɨ]

Vocales nasales Se usa diacrítico macron en la vocal para indicar nasalidad.

  • ā = [ã]

  • ē = [ẽ]

  • ī = [ ĩ ]

  • ō = [õ]

  • ū = [ũ]

  • ǖ = [ ɨ̃ ]

En Unicode, “ǖ” tiene código 01D6 en minúscula y 01D5 en mayúscula.

Tonos (diacríticos en Unicode) El mazahua posee cuatro tonos: alto, bajo, ascendente y descendente. Los diacríticos se escriben encima de la primera vocal.

  • Tono alto: [ ́ ], 02CB

  • Tono bajo: [ ̀ ], 02CB

  • Tono descendente: [ ̂ ], 02C6

  • Tono ascendente: [ ̌ ], 02C6

Ejemplo:

  • ndzíncho – nueve

  • jmū̀ru – huevo

  • pjâd'ül – caballo

  • jyö̌rga – lagartija

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

Pjéko mbéka dyà gá jóʼo kʼa kʼôkútsʼu?
Jânge gá jnū̌tji yó xë́dyi?
Pjéko gí sôʼna koyája cultura o koyája jñátjo?
Pjéko rá sôʼo rá tsʼáji kʼa rá sígido rá jñátji jñátjo yó tǐʼi kʼo kʼa gí të́ʼë kʼa rá ñátji jñátjo?
Ná bes 'i já píts'iji?
Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

O má sé'e yá gá jók'ò ró kjǔgü k'e má ró sä́jä k'a Bṓndo 'ângo rí b'ǘ'ü jña ngá mí xìs'i, dyá mí pâra rá jñá'a nú ñângistjya jé k'o yó të́'ë dyà mi né'e rá núkji e mí xíts'i yá mí pâraji rék'o rí jñá'a pjéko rí mā̀mā. Ná angézeji 'àt'a k'e já ró xôrü nú ñângistjya
Yó xë́dyi m'a dyá jó'tiji nést'a'ò rí pà'tü m'adyà rí pà'tü ná jó'o rá m'ǒs'üji
Nuzgó k'o rí s'ô'n'a k'o 'náño jñá'a, gó 'náño të́'ë, à 'náño ñǐñi, rí nú'u nójo jângo gá jñáji angezeji nuts'k'ó rí né'e rá xôrü jângo gá jñá'a angezeji nuk'a kjâ'a má gó mí ná së̌zhi ngék'o dyá rá dyá rí xôrü ngék'o ts'íjk'e, ts'íjk'e rá xôrü jângon... ts'i jñá'a k'o 'náño jñá'a ngéjnu gó yó të́'ë, k'o 'náño ñá'a jñá'a, ná zògü gá ñáji, ná zògü xíji yó jñá'a, k'o ñá'a angezeji
Yó tǐ'i k'o k'a í të́'ë dyà sô'o rá ñáji nú jñátjo, nú má rá né'e rá ángezeji rá ñájii k'o yó t'á'má pjë́chiji rá jíchiji 'u máji yó rá jyòd'ü ték'o pjë́chib'e rá ñá'a nú jñátjò rá jñū́s'i kja skuǎma, rá dyépe rá ñáji, rá ñáji ngék'o rá xôrüji sàk'ü
Nuts'k'ó píts'iji 'ó pândaji kja ndéje ngéko rí súdye

Posprocesamiento recomendado

El sistema de escritura propuesto para esta variante de mazahua queda abierto a futuras modificaciones y comentarios.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • audio_id - id numérico para archivo de audio

  • audio_file - nombre del archivo de audio

  • duration_ms - duración del audio en milisegundo

  • prompt_id - id numérico para el prompt

  • prompt - pregunta para el usuario

  • transcription - transcripción de la respuesta al audio

  • votes - número de personas quiene aprobaron cierta transcripción

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • language - nombre de la lengua

  • split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip

  • char_per_sec - cuántos caracteres de transcripción por segundo de audio.

  • quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |

    • transcription-length - caracteres por segundo inferior a 3 caracteres por segundo

    • speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo

    • short-audio - duración del audio inferior a 2 segundos

    • long-audio - duración del audio superior a 30 segundos

¡Participa!

Enlaces comunitarios

Contribuir

Agradecimientos

  • Colectivo 'Jñatjo Ndixu', Santa Martha del Sur, Coyoacán, Ciudad de México.

  • Maestros Silverio Benítez García y Orlando Blanco y alumna María del Carmen de Jesús Guzmán, integrantes de Puntos de Innovación, Libertad, Arte, Educación y Saberes (PILARES), Ciudad de México.

  • Coordinaciones de Posgrado y Licenciatura de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Gracias por todo el apoyo recibido y por habernos brindado el Laboratorio de Lingüística (D110) para llevar a cabo nuestras grabaciones.

  • Mtro. Edgar Alberto Madrid Servin, coordinador y docente de la Licenciatura en Lingüística y Dr. Lucio Armando Mora-Bustos, docente e investigador de Lingüística, ambos de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Estamos totalmente agradecidos por su orientación y comentarios.

Autores de la ficha técnica

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2