Common Voice Scripted Speech 25.0 - Yaqui

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 231.93 MB


Share

Description

A collection of read speech recordings in Yaqui (Jiak noki).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Jiak noki — Yaqui (yaq)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para Jiak noki [Yaqui - yaq]. El conjunto de datos contiene 7771 clips representando 11.46 horas de grabaciones (10.21 horas validadas) de 5 hablantes, grabados a partir de un corpus de texto de 2838 oraciones.

Idioma

El yaqui pertenece a la familia yutoazteca, junto con el tarahumara, el guarijío y el mayo forman el grupo taracahita. Yaqui es el exónimo para este idioma, el cual es nombrado jiak noki por sus hablantes nativos, quienes se reconocen como yoemem. INEGI (2020) menciona que, en México, existen 19,376 hablantes, distribuidos en Los Ocho Pueblos: Cócorit, Bácum, Tórim, Vícam, Pótam, Ráhum, Huíribis y Belem. Cabe mencionar que, existen comunidades yoemem en Arizona, E.E.U.U.

Variantes

Sólo se trabajo con la variante del yaqui de México.

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

CodeGenderClipsSpeakers
male_masculineMale, masculine--
female_feminineFemale, feminine4935 (63.5%)3 (60.0%)
transgenderTransgender--
non-binaryNon-binary--
do_not_wish_to_sayPrefer not to say--
-Unspecified2836 (36.5%)3 (60.0%)

Gender declared: 4935 of 7771 clips (63.5%), 2 of 5 speakers (40.0%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

CodeAgeClipsSpeakers
teensTeens--
twentiesTwenties2831 (36.4%)1 (20.0%)
thirtiesThirties2110 (27.2%)1 (20.0%)
fourtiesFourties2824 (36.3%)1 (20.0%)
fiftiesFifties1 (0.0%)1 (20.0%)
sixtiesSixties--
seventiesSeventies--
eightiesEighties--
ninetiesNineties--
-Unspecified5 (0.1%)2 (40.0%)

Age declared: 7766 of 7771 clips (99.9%), 3 of 5 speakers (60.0%)

Partición de datos para modelado

Clip buckets

BucketClips
Validated6925 (89.1%)
Invalidated1 (0.0%)
Other845 (10.9%)

Training splits

SplitClips
Train1897 (27.4%)
Dev131 (1.9%)
Test800 (11.6%)

Training split coverage: 2828 of 6925 validated clips (40.8%)

El conjunto de datos contiene 6925 clips validados, 1 invalidados y 845 sin resolver. La duración promedio de los clips es de 5.311 segundos.

Corpus de texto

El corpus se formó de historias de vida de varios hablantes, que no son los que grabaron, así como de las frases y oraciones de la interfaz pontoon de Mozilla. Fueron 10 horas de audio grabadas en common voice con tres hablantes de la misma variante. La media de las oraciones era de 7-8 segundos, había oraciones más extensas y otras más cortas.

Validated sentences: 2838

CategoryCount
Unvalidated sentences-
Pending sentences-
Rejected sentences-
Reported sentences-

El corpus contiene 2838 oraciones: 2838 validadas y 0 no validadas (0 pendientes de revisión, 0 rechazadas), con 0 reportadas para revisión.

Sistema de escritura

El corpus se formó de textos que ya han sido recopilados con anterioridad por otros autores, por lo tanto, se apoyan de la norma de escritura de jiak noki del INALI

Tabla de símbolos

a, e, i, o, u, aa, ee, ii, oo, uu, b, bw, ch, j, k, l, m, n, p, r, s, t, w, y, ´

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

  1. Nepo woi mecham weyeo bea ne amak joʼarau noinoiten, kaa ne chikti semanapo aa aʼabo Tosai Karimmeu weyen.

  2. Into waatem, waatem into te majtatebok cheʼa tuʼisi bem a suane betchiʼibo.

  3. Juna uusi ¿jewi? ket yoʼotune, suatune.

  4. Nakbea ne ama ejkuuelataitek, juka wasuktiata ne ama yumaʼariak, juka bea... ne juka sejtota ne ansuk.

  5. –Bwe tuʼi, chubala ne yumjoebae.

Fuentes

Estrada Fernández, Z., Carlón Flores, A., & GUTIERREZ ESTRADA, M. R. (2018). JEKA ANIATA JIAPSI: JIAK JAMUTTA ETEJOI. VIDA DE JEKA ANIA/HISTORIA DE UNA MUJER YAQUI. Estrada Fernández, Z., Encinas Silva, M. C., Valenzuela Buitimea, C., & Cruz Bejiponte, M. (2021). Jiak noki lutu’uria into tenkui etejoi: Historias sobre la cultura y sueños en lengua yaqui. Guerrero, L. (2019). Don Fermín, una historia de vida yaqui. Tlalocan, 24, 227-323.

SourceSentences
Ana Patricia1509 (53.2%)
ana patricia979 (34.5%)
Self Citation350 (12.3%)

Dominios textuales

General, Naturaleza y Medio Ambiente

Procesamiento

Se buscó bibliografía de textos de especialistas (citados anteriormente) que tuvieran texto escrito en jiak noki, después se separó, cada uno de los tres textos consultados, en oraciones y frases en un archivo de excel, se procedió con la normalización y posteriormente lo subieron a common voice.

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • path - ruta relativa al archivo de audio

  • text - presunta transcripción del audio

  • up_votes - número de personas que dijeron que el audio concordaba con el texto

  • down_votes - número de personas que dijeron que el audio no concordaba con el texto

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • accents - acentos de los hablantes1

  • variant - variante del idioma1

  • segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí

  • prompt_upvotes - número de votos positivos que recibió la oración

  • prompt_reports - número de reportes que recibió la oración

  • is_edited - si la transcripción del clip ha sido editada

validated_sentences.tsv

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

  • sentence_id - identificador único de la oración

  • sentence - el texto de la oración

  • variant - la variante del idioma

  • sentence_domain - el/los dominio(s) a los que pertenece la oración

  • source - la fuente de donde se recopiló la oración

  • is_used - si la oración sigue en circulación para grabación

  • clips_count - número de clips grabados para esta oración

unvalidated_sentences.tsv

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

  • sentence_id - identificador único de la oración

  • sentence - el texto de la oración

  • variant - la variante del idioma

  • sentence_domain - el/los dominio(s) a los que pertenece la oración

  • source - la fuente de donde se recopiló la oración

  • up_votes - número de votos positivos que recibió la oración

  • down_votes - número de votos negativos que recibió la oración

  • status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Ana Patricia Peña Valenzuela Sergio Isaí Hernández Martínez Eusebia Valenzuela Flores Tomás Armando González Natalia Ozuna Cupiz

Criterios de citación

@article{guerrero2019don, title={Don Ferm{'\i}n, una historia de vida yaqui}, author={Guerrero, Lili{'a}n}, journal={Tlalocan}, volume={24}, pages={227--323}, year={2019} } @article{estrada2021jiak, title={Jiak noki lutu’uria into tenkui etejoi: Historias sobre la cultura y sue{~n}os en lengua yaqui}, author={Estrada Fern{'a}ndez, Zarina and Encinas Silva, Manuel Carlos and Valenzuela Buitimea, Crescencio and Cruz Bejiponte, Melquiades}, year={2021} } @book{estrada2018jeka, title={JEKA ANIATA JIAPSI: JIAK JAMUTTA ETEJOI. VIDA DE JEKA ANIA/HISTORIA DE UNA MUJER YAQUI}, author={Estrada Fern{'a}ndez, Zarina and Carl{'o}n Flores, Anabela and GUTIERREZ ESTRADA, MARIA REBECA and others}, year={2018} }

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2 3 4