Common Voice Scripted Speech 25.0 - Huarijio

License:

CC0-1.0

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 236.19 MB

Description

A collection of read speech recordings in Huarijio (Makurawe).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Makurawe — Huarijio (`var`)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para Makurawe [Huarijio - var]. El conjunto de datos contiene 8006 clips representando 11.8 horas de grabaciones (10.09 horas validadas) de 12 hablantes, grabados a partir de un corpus de texto de 1977 oraciones.

Idioma

La lengua según el Catálogo de lenguas Indigenas del INALI, el Huarijío pertenece a la familia yutoazteca o yuto-nahua, rama yuto-nahua sureña subrama Taracahita. El guarijío o huarijío del sur o del río también llamado makurawe se habla en el estado de Sonora, México: en el municipio de Álamos: Bavícora, Burapaco, Casas Coloradas, Chorijoa, El Chalate, El Sauz, Guajaray, Huataturi, Jobeg I, La Sauceda, La Tribuna, Los Estrados, Mesa Colorada, Mochibampo, Rancho Nuevo, Colonia San José y Colonia Makorahui, Sejaqui, Tecoripa. En el municipio Quiriego: Batacosa, El Frijolar, Los Bajíos (Ejido los Conejos), Quiriego. Según el Plan de Justicia 2020, hay 1998 habitantes.

Variantes

La variante del Huarijío es el Warijó (guarijío de la sierra) hablado en Chihuahua, que tiene el mismo código ISO 639-3: var.

var-delrio: Makurawe
var-sierra: Warihío

Code	Variant	Clips	Speakers
var-delrio	Makurawe (Guarijío del río)	7451 (93.1%)	10 (83.3%)
var-sierra	Warihío (Guarijío de la sierra)	553 (6.9%)	1 (8.3%)

Acentos

Code	Accent	Clips	Speakers
-		2583 (32.3%)	2 (16.7%)

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

Code	Gender	Clips	Speakers
male_masculine	Male, masculine	-	-
female_feminine	Female, feminine	7562 (94.5%)	10 (83.3%)
transgender	Transgender	-	-
non-binary	Non-binary	-	-
do_not_wish_to_say	Prefer not to say	-	-
-	Unspecified	444 (5.5%)	4 (33.3%)

Gender declared: 7562 of 8006 clips (94.5%), 8 of 12 speakers (66.7%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

Code	Age	Clips	Speakers
teens	Teens	1089 (13.6%)	1 (8.3%)
twenties	Twenties	2313 (28.9%)	2 (16.7%)
thirties	Thirties	4596 (57.4%)	7 (58.3%)
fourties	Fourties	3 (0.0%)	1 (8.3%)
fifties	Fifties	-	-
sixties	Sixties	-	-
seventies	Seventies	-	-
eighties	Eighties	-	-
nineties	Nineties	-	-
-	Unspecified	5 (0.1%)	2 (16.7%)

Age declared: 8001 of 8006 clips (99.9%), 10 of 12 speakers (83.3%)

Partición de datos para modelado

Clip buckets

Bucket	Clips
Validated	6851 (85.6%)
Invalidated	291 (3.6%)
Other	864 (10.8%)

Training splits

Split	Clips
Train	752 (11.0%)
Dev	546 (8.0%)
Test	611 (8.9%)

Training split coverage: 1909 of 6851 validated clips (27.9%)

El conjunto de datos contiene 6851 clips validados, 291 invalidados y 864 sin resolver. La duración promedio de los clips es de 5.307 segundos.

Corpus de texto

Las oraciones mayormente son tomadas de la gramática del Dr. Rolando Guadalupe Felix Armendariz, aunque se usó también el diccionario de la Maestra Ana Aurora Medina Murillo además unos ejemplos de tesis de maestría de Ana Amelia Avila Enriquez y unos ejemplos de un artículo de la maestra Isabel Barreras Aguilar.

Validated sentences: 1977

Category	Count
Unvalidated sentences	-
Pending sentences	-
Rejected sentences	-
Reported sentences	246

El corpus contiene 1977 oraciones: 1977 validadas y 0 no validadas (0 pendientes de revisión, 0 rechazadas), con 246 reportadas para revisión.

Sistema de escritura

Se tomó la escritura usada en la tesis del 2005 por el Dr. Rolando Guadalupe Felix Armendariz para hacer el corpus. Según el Dr. la lengua tiene 12 consonantes y 5 vocales.

Tabla de símbolos

p t k r s č m n w y h (') 
a e i o u

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

Kaahetečí yačasá muuní.
Konaréne kusímuni.
Iʼtónane paikápi pahčí ikačí.
Iwá ohoénia kíkawéhu katisá thekíhu.
Kuándo teeméa kuándo iʼwá kuándo teeméapu iʼwao.

Fuentes

Avila Enriquez, Diana Amelia. 2012. Las construcciones aplicativas en guarijío de Sonora. (tesis de maestría). Sonora: Universidad de Sonora.
Barreras Aguilar, Isabel. 1996 “Clasificación semántica de los verbos en guarijío. En: J.Fajardo (Ed.). Estudios semánticos. México: El Colegio de México Félix Armendáriz,
Rolando Gpe. 2005. A Grammar of River Warihio. Disertación de doctorado.Texas: Rice University.
Medina Murillo Ana Aurora. 2002. Diccionario morfológico: formación de palabras en el guarijio. (tesis de maestria). Sonora: Universidad de Sonora.

Source	Sentences
Maria Alfonsa Larios Santacruz	1977 (100.0%)

Dominios textuales

General

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
text - presunta transcripción del audio
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - genero de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí
prompt_upvotes - número de votos positivos que recibió la oración
prompt_reports - número de reportes que recibió la oración
is_edited - si la transcripción del clip ha sido editada

`validated_sentences.tsv`

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración

`unvalidated_sentences.tsv`

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Maria Alfonsa Larios Santacruz

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4