Common Voice Scripted Speech 23.0 - Tepeuxila Cuicatec
License:
CC0-1.0
Steward:
Common Voice
Task: ASR
Release Date: 9/15/2025
Format: MP3
Size: 166.43 MB
Description
A collection of scripted spoken phrases in Tepeuxila Cuicatec.
Specifics
Considerations
Restrictions/Special Constraints
You agree that you will not re-host or re-share this dataset
Forbidden Usage
You agree not to attempt to determine the identity of speakers in the Common Voice dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
[Tepeuxila Cuicatec] — Tepeuxila Cuicatec (cux)
Esta ficha técnica corresponde a la versión 23.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Tepeuxila Cuicatec (cux). El conjunto de datos contiene 11 horas de grabaciones (11 horas validadas) de 11 hablantes.
Idioma
El cuicateco es una agrupación lingüística distribuida en el Distrito de Cuicatlán, en la región Cañada, al norte del estado de Oaxaca, México. Pertenece a la rama mixtecana dentro de la macro-familia otomangue. Según el censo del Instituto Nacional de Estadística y Geografía, para el 2020 la población hablante ascendía a 12961. Aunque la vitalidad del cuicateco varía entre comunidades, en lo general se encuentra en un alto peligro de desplazamiento. Los datos de este corpus provienen de la comunidad de Santos Reyes Pápalo.
Variantes
Según la publicación de Ethnologue, el cuicateco cuenta con dos variantes: Teutila (cut) y Tepeuxila (cux). Esta clasificación se corresponde parcialmente con la propuesta por el Instituto Nacional de Lenguas Indígenas, el cual reconoce tres: cuicateco del norte, centro y oriente. Respecto de estas clasificaciones, el cuicateco de este corpus corresponde a la variante de Tepeuxila (cux) y centro.
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 35.0% |
| Female Feminine | 65.0% |
Edad
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Twenties | 36.0% |
| Thirties | 23.0% |
| Teens | 41.0% |
Corpus de texto
El promedio de palabras por oración es de 4.5. El corpus se compone principalmente por oraciones creadas por los participantes sobre temas generales y cotidianos. Incluye ítems de la elicitación gramatical del Archivo de Lenguas Indígenas de México.
Sistema de escritura
El cuicateco no cuenta con un sistema de escritura normalizado, por lo que las propuestas emergentes dentro de cada comunidad varían ligeramente entre ellas, aún dentro de la misma comunidad. Esto se refleja en el presente corpus en algunas inconsistencias en la marcación del tono o nasalización para algunas palabras.
Tabla de símbolos
a ä b ch d e ë f g h i ï j k l m n ñ o ö p r s t u ü v w y z '
El tono alto se marca con acento agudo sobre la vocal.
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
Chaku jo'oy nínu je'e tu'u ñe'eñ
Iña bede gua dama jineuu nukuy
Kánud ñuu kat ne'é chi dii nanomnod
Chiduu ne'e che'ey ama nukyòò
Ko'öd chíd ú chi kanad ama bí'i che'e
Muestras automáticas aleatorias
Nuku it dituu kuchi.
Bea obe itintu kuä ñeʼë.
Taka chikueta ú a taka jiduchiy ñoʼo jindeʼe.
Dayan a chimbakuta.
Takó gua jinakata ama itsóʼö ñeʼeta.
Fuentes
Subconjunto de oraciones para Dependencias Universales
Oraciones individuales para la plataforma de Common Voice
Dominios textuales
General
Procesamiento
El texto se creo a partir tanto de la traducción de español a cuicateco como directamente en cuicateco. El registro de varios autores se realizó en una hoja de cálculo. Posteriormente se realizó una homogeneización de los caracteres. Algunas divergencias ortográficas por autor se mantuvieron.
Postprocesamiento recomendado
¡Involúcrate!
Enlaces comunitarios
Discusiones
Contribuir
Agradecimientos
Autores de la ficha técnica
Francisco J. Ariano fco.aric@gmail.com
Criterios de citación
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
