Common Voice Scripted Speech 25.0 - Central Puebla Nahuatl

License:

CC0-1.0

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 231.90 MB

Description

A collection of read speech recordings in Central Puebla Nahuatl (Nahuat).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Nahuat — Central Puebla Nahuatl (`ncx`)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para Nahuat [Central Puebla Nahuatl - ncx]. El conjunto de datos contiene 9509 clips representando 11.77 horas de grabaciones (10.7 horas validadas) de 41 hablantes, grabados a partir de un corpus de texto de 1523 oraciones.

Idioma

Náhuatl que se utiliza mayormente en el Centro de Veracruz y Valle de Tehuacán y alrededores, además de ser entendible en Oaxaca (norte), Morelos, Tlaxcala, Estado de México y Ciudad de México.

Acentos

Code	Accent	Clips	Speakers
-		6254 (65.8%)	15 (36.6%)

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

Code	Gender	Clips	Speakers
male_masculine	Male, masculine	126 (1.3%)	1 (2.4%)
female_feminine	Female, feminine	3582 (37.7%)	6 (14.6%)
transgender	Transgender	-	-
non-binary	Non-binary	-	-
do_not_wish_to_say	Prefer not to say	-	-
-	Unspecified	5801 (61.0%)	39 (95.1%)

Gender declared: 3708 of 9509 clips (39.0%), 2 of 41 speakers (4.9%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

Code	Age	Clips	Speakers
teens	Teens	40 (0.4%)	1 (2.4%)
twenties	Twenties	1386 (14.6%)	4 (9.8%)
thirties	Thirties	6028 (63.4%)	16 (39.0%)
fourties	Fourties	1639 (17.2%)	4 (9.8%)
fifties	Fifties	-	-
sixties	Sixties	5 (0.1%)	1 (2.4%)
seventies	Seventies	-	-
eighties	Eighties	-	-
nineties	Nineties	-	-
-	Unspecified	411 (4.3%)	22 (53.7%)

Age declared: 9098 of 9509 clips (95.7%), 19 of 41 speakers (46.3%)

Partición de datos para modelado

Clip buckets

Bucket	Clips
Validated	8644 (90.9%)
Invalidated	62 (0.7%)
Other	803 (8.4%)

Training splits

Split	Clips
Train	359 (4.2%)
Dev	340 (3.9%)
Test	345 (4.0%)

Training split coverage: 1044 of 8644 validated clips (12.1%)

El conjunto de datos contiene 8644 clips validados, 62 invalidados y 803 sin resolver. La duración promedio de los clips es de 4.457 segundos.

Corpus de texto

Frases más bien cortas, de tres a cinco palabras en su mayoría y sacadas de contextos de socialización comunes.

Validated sentences: 1518

Category	Count
Unvalidated sentences	5
Pending sentences	5
Rejected sentences	-
Reported sentences	2

El corpus contiene 1523 oraciones: 1518 validadas y 5 no validadas (5 pendientes de revisión, 0 rechazadas), con 2 reportadas para revisión.

Sistema de escritura

Escritura práctica, utilizando la pauta propuesta por el Instituto Lingüístico de Verano.

Tabla de símbolos

a b ch e f g i j k l m n o p r s t tl ts u x y

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

¿Kox yi...?
Nakatl tlen ineuian kitekilis inauak iyolo tlasemanki.
San otikijto amo mitskuejsoa tinentlakatl.
¿Machitlaj mitsyoltelinia?
Uan tlioli uan okitlali ipan se ajpastli.

Fuentes

Ne noneuian Ketsaltsin, saiktlami astatl Tetlikuiti Tlasemanki onpa Chiaualpan

Source	Sentences
obra propia Yolkapoli Tlajkuiloani (Samuel Santiago)	606 (39.9%)
Se Tlasemanki onpa Chiaualpan	405 (26.7%)
Ken timonotsaj	139 (9.2%)
Ne noneuian	108 (7.1%)
Tetlikuiti	80 (5.3%)
Ketsaltsin, saiktlami astatl	59 (3.9%)
In astatl in ostotl	48 (3.2%)
Xiyektlajtolti	39 (2.6%)
Tlajkuiloli non yetos itech Tinochtin Titlajtoaj	19 (1.3%)
Other	15 (1.0%)

Dominios textuales

General, Medios y Entretenimiento

Code	Domain	Clips	Speakers
general	General	-	-
agriculture_food	Agriculture and Food	-	-
automotive_transport	Automotive and Transport	-	-
finance	Finance	212 (2.2%)	18 (43.9%)
service_retail	Service and Retail	-	-
healthcare	Healthcare	212 (2.2%)	18 (43.9%)
history_law_government	History, Law and Government	-	-
media_entertainment	Media and Entertainment	4700 (49.4%)	38 (92.7%)
nature_environment	Nature and Environment	-	-
news_current_affairs	News and Current Affairs	-	-
technology_robotics	Technology and Robotics	-	-
language_fundamentals	Language Fundamentals	2047 (21.5%)	34 (82.9%)

Procesamiento

Se siguieron pautas comunes de lenguaje cotidiano y representativo.

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
text - presunta transcripción del audio
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - genero de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí
prompt_upvotes - número de votos positivos que recibió la oración
prompt_reports - número de reportes que recibió la oración
is_edited - si la transcripción del clip ha sido editada

`validated_sentences.tsv`

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración

`unvalidated_sentences.tsv`

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Luis Samuel Santiago Melchor: lssm8676969@gmail.com

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4