Common Voice Scripted Speech 25.0 - Huautla Mazatec

License:

CC0-1.0

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 197.89 MB

Description

A collection of read speech recordings in Huautla Mazatec (mau).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

mau — Huautla Mazatec (`mau`)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para mau [Huautla Mazatec - mau]. El conjunto de datos contiene 6269 clips representando 10.82 horas de grabaciones (10.42 horas validadas) de 7 hablantes, grabados a partir de un corpus de texto de 1119 oraciones.

Idioma

El mazateco (ÉNNÁ) pertenece a la familia Otomangue y sub familia popoloca mazateca, esta lengua se habla los estados de Puebla, Veracruz y principalmente en el estado de Oaxaca donde se ubican la mayor parte de la población mazateca, ahí podemos encontrar, Mazateco Occidental, Mazateco Mazatlán, Mazateco del centro, Mazateco centro oriental, Mazateco Ayautla, Mazateco Chiquihuitlán, Mazateco de Jalapa, Mazateco de Ixcatlán y Mazateco de Soyaltepec. En este articulo encontraras Mazateco del centro que comprenden los municipios de Santa María Chilchotla, Huautla de Jiménez, San José Tenango, Santa María la Asunción y San Miguel Huautapec, pero específicamente el trabajo esta centrado en la variante de la localidad de Puerto Buenavista perteneciente al municipio de San José Tenango, es decir, Mazateco del centro. La división política que se menciona en este texto se extrajo del libro Norma para la escritura del mazateco.

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

Code	Gender	Clips	Speakers
male_masculine	Male, masculine	-	-
female_feminine	Female, feminine	2223 (35.5%)	3 (42.9%)
transgender	Transgender	-	-
non-binary	Non-binary	-	-
do_not_wish_to_say	Prefer not to say	-	-
-	Unspecified	4046 (64.5%)	4 (57.1%)

Gender declared: 2223 of 6269 clips (35.5%), 3 of 7 speakers (42.9%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

Code	Age	Clips	Speakers
teens	Teens	-	-
twenties	Twenties	1309 (20.9%)	2 (28.6%)
thirties	Thirties	2723 (43.4%)	3 (42.9%)
fourties	Fourties	2237 (35.7%)	2 (28.6%)
fifties	Fifties	-	-
sixties	Sixties	-	-
seventies	Seventies	-	-
eighties	Eighties	-	-
nineties	Nineties	-	-
-	Unspecified	-	-

Age declared: 6269 of 6269 clips (100.0%), 7 of 7 speakers (100.0%)

Partición de datos para modelado

Clip buckets

Bucket	Clips
Validated	6040 (96.3%)
Invalidated	13 (0.2%)
Other	216 (3.4%)

Training splits

Split	Clips
Train	555 (9.2%)
Dev	252 (4.2%)
Test	312 (5.2%)

Training split coverage: 1119 of 6040 validated clips (18.5%)

El conjunto de datos contiene 6040 clips validados, 13 invalidados y 216 sin resolver. La duración promedio de los clips es de 6.216 segundos.

Corpus de texto

El cuerpo del trabajo o las oraciones fueron escritas por el propio autor refiriéndose a situaciones de la vida cotidiana en el campo, en la casa, en el trabajo y en todas la actividades que se viven a diario en la comunidad.

Validated sentences: 1119

Category	Count
Unvalidated sentences	-
Pending sentences	-
Rejected sentences	-
Reported sentences	-

El corpus contiene 1119 oraciones: 1119 validadas y 0 no validadas (0 pendientes de revisión, 0 rechazadas), con 0 reportadas para revisión.

Sistema de escritura

En este trabajo se respeto el sistema de escritura de la Norma de escritura del idioma mazateco.

Tabla de símbolos

b ch f j k l m n ñ r s t ts x y nd ng nds nch mb jm jn jñ tj kj tsj jm jn jñ tj kj tsj chj sj jm jn jñ tj kj tsj chj sj jnd jng ntj nkj ntsj nchj

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

Chu sen tikjine nañá ndí.
Ndá kafé tísʼexu.
¿Jñá ndibani ji?
Kjineya ngatsʼa tsúti.
Ndí ixtiʼndi chjine xojon siskaa.

Fuentes

Propia

Source	Sentences
Jesús Méndez García	1119 (100.0%)

Procesamiento

Todo el corpus fue basado en vivencias de la vida diaria en el campo, la casa y en el trabajo que se realiza en una comunidad.

Postprocesamiento recomendado

Qué tipo de procesamiento le recomendarías a una persona que quiere usar estos datos?

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
text - presunta transcripción del audio
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - genero de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí
prompt_upvotes - número de votos positivos que recibió la oración
prompt_reports - número de reportes que recibió la oración
is_edited - si la transcripción del clip ha sido editada

`validated_sentences.tsv`

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración

`unvalidated_sentences.tsv`

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Jesús Méndez García garciajesusm28@gmail.com María Agustina Méndez García Divina Cecilia Méndez García Gladis González Jiménez Diego Orestes Méndez García

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4