Common Voice Scripted Speech 25.0 - Central Puebla Nahuatl
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 3/22/2026
Format: MP3
Size: 231.90 MB
Share
Description
A collection of read speech recordings in Central Puebla Nahuatl (Nahuat).
Specifics
Considerations
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Nahuat — Central Puebla Nahuatl (ncx)
Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para Nahuat [Central Puebla Nahuatl - ncx]. El conjunto de datos contiene 9509 clips representando 11.77 horas de grabaciones (10.7 horas validadas) de 41 hablantes, grabados a partir de un corpus de texto de 1523 oraciones.
Idioma
Náhuatl que se utiliza mayormente en el Centro de Veracruz y Valle de Tehuacán y alrededores, además de ser entendible en Oaxaca (norte), Morelos, Tlaxcala, Estado de México y Ciudad de México.
Acentos
| Code | Accent | Clips | Speakers |
|---|---|---|---|
| - | 6254 (65.8%) | 15 (36.6%) |
Información demográfica
El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.
Género
Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.
| Code | Gender | Clips | Speakers |
|---|---|---|---|
| male_masculine | Male, masculine | 126 (1.3%) | 1 (2.4%) |
| female_feminine | Female, feminine | 3582 (37.7%) | 6 (14.6%) |
| transgender | Transgender | - | - |
| non-binary | Non-binary | - | - |
| do_not_wish_to_say | Prefer not to say | - | - |
| - | Unspecified | 5801 (61.0%) | 39 (95.1%) |
Gender declared: 3708 of 9509 clips (39.0%), 2 of 41 speakers (4.9%)
Edad
Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.
| Code | Age | Clips | Speakers |
|---|---|---|---|
| teens | Teens | 40 (0.4%) | 1 (2.4%) |
| twenties | Twenties | 1386 (14.6%) | 4 (9.8%) |
| thirties | Thirties | 6028 (63.4%) | 16 (39.0%) |
| fourties | Fourties | 1639 (17.2%) | 4 (9.8%) |
| fifties | Fifties | - | - |
| sixties | Sixties | 5 (0.1%) | 1 (2.4%) |
| seventies | Seventies | - | - |
| eighties | Eighties | - | - |
| nineties | Nineties | - | - |
| - | Unspecified | 411 (4.3%) | 22 (53.7%) |
Age declared: 9098 of 9509 clips (95.7%), 19 of 41 speakers (46.3%)
Partición de datos para modelado
Clip buckets
| Bucket | Clips |
|---|---|
| Validated | 8644 (90.9%) |
| Invalidated | 62 (0.7%) |
| Other | 803 (8.4%) |
Training splits
| Split | Clips |
|---|---|
| Train | 359 (4.2%) |
| Dev | 340 (3.9%) |
| Test | 345 (4.0%) |
Training split coverage: 1044 of 8644 validated clips (12.1%)
El conjunto de datos contiene 8644 clips validados, 62 invalidados y 803 sin resolver. La duración promedio de los clips es de 4.457 segundos.
Corpus de texto
Frases más bien cortas, de tres a cinco palabras en su mayoría y sacadas de contextos de socialización comunes.
Validated sentences: 1518
| Category | Count |
|---|---|
| Unvalidated sentences | 5 |
| Pending sentences | 5 |
| Rejected sentences | - |
| Reported sentences | 2 |
El corpus contiene 1523 oraciones: 1518 validadas y 5 no validadas (5 pendientes de revisión, 0 rechazadas), con 2 reportadas para revisión.
Sistema de escritura
Escritura práctica, utilizando la pauta propuesta por el Instituto Lingüístico de Verano.
Tabla de símbolos
a b ch e f g i j k l m n o p r s t tl ts u x y
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
¿Kox yi...?
Nakatl tlen ineuian kitekilis inauak iyolo tlasemanki.
San otikijto amo mitskuejsoa tinentlakatl.
¿Machitlaj mitsyoltelinia?
Uan tlioli uan okitlali ipan se ajpastli.
Fuentes
Ne noneuian Ketsaltsin, saiktlami astatl Tetlikuiti Tlasemanki onpa Chiaualpan
| Source | Sentences |
|---|---|
| obra propia Yolkapoli Tlajkuiloani (Samuel Santiago) | 606 (39.9%) |
| Se Tlasemanki onpa Chiaualpan | 405 (26.7%) |
| Ken timonotsaj | 139 (9.2%) |
| Ne noneuian | 108 (7.1%) |
| Tetlikuiti | 80 (5.3%) |
| Ketsaltsin, saiktlami astatl | 59 (3.9%) |
| In astatl in ostotl | 48 (3.2%) |
| Xiyektlajtolti | 39 (2.6%) |
| Tlajkuiloli non yetos itech Tinochtin Titlajtoaj | 19 (1.3%) |
| Other | 15 (1.0%) |
Dominios textuales
General, Medios y Entretenimiento
| Code | Domain | Clips | Speakers |
|---|---|---|---|
| general | General | - | - |
| agriculture_food | Agriculture and Food | - | - |
| automotive_transport | Automotive and Transport | - | - |
| finance | Finance | 212 (2.2%) | 18 (43.9%) |
| service_retail | Service and Retail | - | - |
| healthcare | Healthcare | 212 (2.2%) | 18 (43.9%) |
| history_law_government | History, Law and Government | - | - |
| media_entertainment | Media and Entertainment | 4700 (49.4%) | 38 (92.7%) |
| nature_environment | Nature and Environment | - | - |
| news_current_affairs | News and Current Affairs | - | - |
| technology_robotics | Technology and Robotics | - | - |
| language_fundamentals | Language Fundamentals | 2047 (21.5%) | 34 (82.9%) |
Procesamiento
Se siguieron pautas comunes de lenguaje cotidiano y representativo.
Campos
Clips
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id- UUID hasheado de cierto usuariopath- ruta relativa al archivo de audiotext- presunta transcripción del audioup_votes- número de personas que dijeron que el audio concordaba con el textodown_votes- número de personas que dijeron que el audio no concordaba con el textoage- edad de los hablantes1gender- genero de los hablantes1accents- acentos de los hablantes1variant- variante del idioma1segment- si la oración pertenece a una porción personalizada de un dataset, será listada aquíprompt_upvotes- número de votos positivos que recibió la oraciónprompt_reports- número de reportes que recibió la oraciónis_edited- si la transcripción del clip ha sido editada
validated_sentences.tsv
El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:
sentence_id- identificador único de la oraciónsentence- el texto de la oraciónvariant- la variante del idiomasentence_domain- el/los dominio(s) a los que pertenece la oraciónsource- la fuente de donde se recopiló la oraciónis_used- si la oración sigue en circulación para grabaciónclips_count- número de clips grabados para esta oración
unvalidated_sentences.tsv
El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:
sentence_id- identificador único de la oraciónsentence- el texto de la oraciónvariant- la variante del idiomasentence_domain- el/los dominio(s) a los que pertenece la oraciónsource- la fuente de donde se recopiló la oraciónup_votes- número de votos positivos que recibió la oracióndown_votes- número de votos negativos que recibió la oraciónstatus- estado actual de la oración (pendingorejected)
Involúcrate
Enlaces comunitarios
Discusiones
Contribuir
Agradecimientos
Autores de la ficha técnica
Luis Samuel Santiago Melchor: lssm8676969@gmail.com
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Footnotes
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4