Common Voice Scripted Speech 25.0 - Tepeuxila Cuicatec

License:

CC0-1.0

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 166.45 MB

Description

A collection of read speech recordings in Tepeuxila Cuicatec (cux).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

cux — Tepeuxila Cuicatec (`cux`)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para cux [Tepeuxila Cuicatec - cux]. El conjunto de datos contiene 9350 clips representando 10.64 horas de grabaciones (10.26 horas validadas) de 11 hablantes, grabados a partir de un corpus de texto de 2269 oraciones.

Idioma

El cuicateco es una agrupación lingüística distribuida en el Distrito de Cuicatlán, en la región Cañada, al norte del estado de Oaxaca, México. Pertenece a la rama mixtecana dentro de la macro-familia otomangue. Según el censo del Instituto Nacional de Estadística y Geografía, para el 2020 la población hablante ascendía a 12961. Aunque la vitalidad del cuicateco varía entre comunidades, en lo general se encuentra en un alto peligro de desplazamiento. Los datos de este corpus provienen de la comunidad se Santos Reyes Pápalo.

Variantes

Según la publicación de Ethnologue, el cuicateco cuenta con dos variantes: Teutila (cut) y Tepeuxila (cux). Esta clasificación se corresponde parcialmente con la propuesta por el Instituto Nacional de Lenguas Indígenas, el cual reconoce tres: cuicateco del norte, centro y oriente. Respecto de estas clasificaciones, el cuicateco de este corpus corresponde a la variante de Tepeuxila (cux) y centro.

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

Code	Gender	Clips	Speakers
male_masculine	Male, masculine	-	-
female_feminine	Female, feminine	6040 (64.6%)	4 (36.4%)
transgender	Transgender	-	-
non-binary	Non-binary	-	-
do_not_wish_to_say	Prefer not to say	-	-
-	Unspecified	3310 (35.4%)	7 (63.6%)

Gender declared: 6040 of 9350 clips (64.6%), 4 of 11 speakers (36.4%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

Code	Age	Clips	Speakers
teens	Teens	3838 (41.0%)	4 (36.4%)
twenties	Twenties	3324 (35.6%)	4 (36.4%)
thirties	Thirties	2178 (23.3%)	1 (9.1%)
fourties	Fourties	-	-
fifties	Fifties	-	-
sixties	Sixties	-	-
seventies	Seventies	-	-
eighties	Eighties	-	-
nineties	Nineties	-	-
-	Unspecified	10 (0.1%)	2 (18.2%)

Age declared: 9340 of 9350 clips (99.9%), 9 of 11 speakers (81.8%)

Partición de datos para modelado

Clip buckets

Bucket	Clips
Validated	9016 (96.4%)
Invalidated	325 (3.5%)
Other	9 (0.1%)

Training splits

Split	Clips
Train	1107 (12.3%)
Dev	647 (7.2%)
Test	494 (5.5%)

Training split coverage: 2248 of 9016 validated clips (24.9%)

El conjunto de datos contiene 9016 clips validados, 325 invalidados y 9 sin resolver. La duración promedio de los clips es de 4.101 segundos.

Corpus de texto

El promedio de palabras por oración es de 4.5. El corpus se compone principalmente por oraciones creadas por los participantes sobre temas generales y cotidianos. Incluye ítems de la elicitación gramatical del Archivo de Lenguas Indígenas de México.

Validated sentences: 2251

Category	Count
Unvalidated sentences	18
Pending sentences	18
Rejected sentences	-
Reported sentences	1

El corpus contiene 2269 oraciones: 2251 validadas y 18 no validadas (18 pendientes de revisión, 0 rechazadas), con 1 reportadas para revisión.

Sistema de escritura

El cuicateco no cuenta con un sistema de escritura normalizado, por lo que las propuestas emergentes dentro de cada comunidad varían ligeramente entre ellas, aún dentro de la misma comunidad. Esto se refleja en el presente corpus en algunas inconsistencias en la marcación del tono o nasalización para algunas palabras.

Tabla de símbolos

a ä b ch d e ë f g h i ï j k l m n ñ o ö p r s t u ü v w y z '

El tono alto se marca con acento agudo sobre la vocal.

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

Yabi cheʼe baku chikuʼu.
¿A snú núni no kutum?
Yeaben yaku chiiba nïi.
Ikun yábi diiya.
Kuu íi.

Fuentes

Subconjunto de oraciones para Dependencias Universales
Oraciones individuales para la plataforma de Common Voice

Source	Sentences
Own work (Mazali)	677 (30.1%)
lilia and mazali	391 (17.4%)
Paula Gomez	377 (16.7%)
Madai and Lilia	358 (15.9%)
Own work (Maestra Lucy)	292 (13.0%)
Own work (Maestra Lucy) / Paula	141 (6.3%)
Other	15 (0.7%)

Dominios textuales

General

Procesamiento

El texto se creo a partir tanto de la traducción de español a cuicateco como directamente en cuicateco. El registro de varios autores se realizó en una hoja de cálculo. Posteriormente se realizó una homogeneización de los caracteres. Algunas divergencias ortográficas por autor se mantuvieron.

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
text - presunta transcripción del audio
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - genero de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí
prompt_upvotes - número de votos positivos que recibió la oración
prompt_reports - número de reportes que recibió la oración
is_edited - si la transcripción del clip ha sido editada

`validated_sentences.tsv`

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración

`unvalidated_sentences.tsv`

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Francisco J. Ariano fco.aric@gmail.com

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4