Common Voice Scripted Speech 25.0 - Teutila Cuicatec

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 209.56 MB


Share

Description

A collection of read speech recordings in Teutila Cuicatec (Dbaku).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Dbaku — Teutila Cuicatec (cut)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para Dbaku [Teutila Cuicatec - cut]. El conjunto de datos contiene 5616 clips representando 10.34 horas de grabaciones (10.09 horas validadas) de 15 hablantes, grabados a partir de un corpus de texto de 995 oraciones.

Idioma

De acuerdo al Catálogo de las Lenguas Indígenas Nacionales (2009), del Instituto Nacional de las Lenguas Indígenas (INALI), el kuikateko es una lengua originaria que pertenece a la agrupación de la familia oto-mangue, esta familia lingüística es la más grande del país y las lenguas oto-mangues se hablan desde el estado de San Luis Potosí, hasta el estado de Oaxaca. El kuikateko o dbaku, con el que se trabajó para la grabación de voz de habla leída, es de acuerdo al INALI, de la variante centro, se habla en la comunidad de Santa María Tlalixtac o Nñia Teko, municipio número 438 del estado de Oaxaca, el cual se ubica en la región Cañada o también conocida como Sierra de los Hermanos Flores Magón.

Variantes

Variante centro

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

CodeGenderClipsSpeakers
male_masculineMale, masculine--
female_feminineFemale, feminine3809 (67.8%)5 (33.3%)
transgenderTransgender--
non-binaryNon-binary--
do_not_wish_to_sayPrefer not to say--
-Unspecified1807 (32.2%)11 (73.3%)

Gender declared: 3809 of 5616 clips (67.8%), 4 of 15 speakers (26.7%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

CodeAgeClipsSpeakers
teensTeens--
twentiesTwenties2 (0.0%)1 (6.7%)
thirtiesThirties2349 (41.8%)4 (26.7%)
fourtiesFourties959 (17.1%)1 (6.7%)
fiftiesFifties898 (16.0%)1 (6.7%)
sixtiesSixties--
seventiesSeventies--
eightiesEighties--
ninetiesNineties--
-Unspecified1408 (25.1%)9 (60.0%)

Age declared: 4208 of 5616 clips (74.9%), 6 of 15 speakers (40.0%)

Partición de datos para modelado

Clip buckets

BucketClips
Validated5481 (97.6%)
Invalidated5 (0.1%)
Other130 (2.3%)

Training splits

SplitClips
Train378 (6.9%)
Dev290 (5.3%)
Test325 (5.9%)

Training split coverage: 993 of 5481 validated clips (18.1%)

El conjunto de datos contiene 5481 clips validados, 5 invalidados y 130 sin resolver. La duración promedio de los clips es de 6.631 segundos.

Corpus de texto

Se capturaron frases relacionados a temas de carácter general, sólo algunas frases forman parte de una breve traducción del Quijote de la Mancha.

Validated sentences: 994

CategoryCount
Unvalidated sentences1
Pending sentences1
Rejected sentences-
Reported sentences-

El corpus contiene 995 oraciones: 994 validadas y 1 no validadas (1 pendientes de revisión, 0 rechazadas), con 0 reportadas para revisión.

Sistema de escritura

La escritura que se utilizó es la misma que se usa para el escribir en español, con la diferencia de que se agregaron más de un acento en algunas palabras, ya que la lengua dbaku se caracteriza por ser una lengua tonal.

Tabla de símbolos

Se utilizó una propuesta de alfabeto que aún no está plenamente difundido en el interior de la comunidad, ya que existen otras propuestas de alfabeto.

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

  1. Adenos ndinñus beene kaʼaya.

  2. Tase ma kena se tika iydiine, nwe iyninukuenno.

  3. A dtinnos kaʼyane a gnenos ikakay, a nderes yeʼendiku eʼya.

  4. Mit nome nwe dindi stika.

  5. Kabianne nkuetiate iyngoo ama dolin.

Fuentes

SourceSentences
ana adevaño (obra propia)970 (97.6%)
Ada Avedaño24 (2.4%)

Dominios textuales

General

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • path - ruta relativa al archivo de audio

  • text - presunta transcripción del audio

  • up_votes - número de personas que dijeron que el audio concordaba con el texto

  • down_votes - número de personas que dijeron que el audio no concordaba con el texto

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • accents - acentos de los hablantes1

  • variant - variante del idioma1

  • segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí

  • prompt_upvotes - número de votos positivos que recibió la oración

  • prompt_reports - número de reportes que recibió la oración

  • is_edited - si la transcripción del clip ha sido editada

validated_sentences.tsv

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

  • sentence_id - identificador único de la oración

  • sentence - el texto de la oración

  • variant - la variante del idioma

  • sentence_domain - el/los dominio(s) a los que pertenece la oración

  • source - la fuente de donde se recopiló la oración

  • is_used - si la oración sigue en circulación para grabación

  • clips_count - número de clips grabados para esta oración

unvalidated_sentences.tsv

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

  • sentence_id - identificador único de la oración

  • sentence - el texto de la oración

  • variant - la variante del idioma

  • sentence_domain - el/los dominio(s) a los que pertenece la oración

  • source - la fuente de donde se recopiló la oración

  • up_votes - número de votos positivos que recibió la oración

  • down_votes - número de votos negativos que recibió la oración

  • status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Adalberta Robles Avendaño adaavendano4@gmail.com

Criterios de citación

No

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2 3 4