Common Voice Spontaneous Speech 2.0 - Mixteco Yucuhiti

License:

CC0-1.0

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 201.66 MB

Description

A collection of spontaneous spoken phrases in Mixteco Yucuhiti.

Specifics

Licensing

CC0 1.0 Universal

https://creativecommons.org/publicdomain/zero/1.0/legalcode

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Mixteco Yucuhiti — Southwestern Tlaxiaco Mixtec (`meh`)

Esta hoja de datos ha sido generada automáticamente, nos encantaría incluir más información, si deseas ayudar, ¡ponte en contacto con nosotros!

Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Southwestern Tlaxiaco Mixtec (meh). El conjunto de datos contiene 1057 representando 11 horas de grabaciones (11 horas validadas) de 16 hablantes.

Partición de datos para modelado

Partición	Cuenta
Train	626
Test	266
Dev	156

Transcripciones

Preguntas: 120
Duración total: 10:09:27 [h:m:s]
Longitud promedio de transcripción (en carácteres): 317
Duración promedio: 34.6[s]
Duración validada: 36197.496[s]
Horas totales: 10.16[h]
Horas validas: 10.05[h]

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

Nà tá’án ini’ nú sìkɨ́ nú de nàvi?
Detún síkáka nú iin kàa jínu nàsa kuìyà nú sá nkutu’va nú?
Nàsa nátee danú ita’ nùù sá’á danú viko ñuu’?
Nàsa sátátán kue’ì ñù’ún ñuu’ nú?
Nàsa íyó ñuu’ nú á i’ní axín vìjin?

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Ta'an ini ni sikɨ ni da tiluu nuu a sikɨ da... a sikɨ da tiluu yukuan jen ta'an ini ni tyi, i... a ɨjɨn, sa va nuu kua iin a nuu vitan da yɨkɨ nu na'a nu, ta'an ini ni sikɨ ni.
Ah... ntu jini ni ɨɨ... sikua'an nuu ni kaa jinu.
Suu a sa'a vi a, ɨjɨn, ve'i ñu'un nasa'a vii. natyu'un ita nuu santu, natee itɨ axin naka'yu daja ve'i ñu'un. Iin, tee da kaa da adornu sa va vii tun viji kanta kivɨ kiji sutu, sa'a ja misa.
Tu kue'i ñu'un vi, a ntu'vi nu, a nkoyo nu, a ñu'vi nu. Jen ka'an nu tɨ'ɨn je kɨ'ɨn nake'en ñu'un nu, jen ka'an daa jin ñu'un nu. na tyi'i da ñu'u nu. Jen  sava nanta anima nu katyi daja. yukuan vi a satatan o.
Ya'a vi nuu vijin, ya'a vi nuu kuun yu'va, ya'a vi nuu jinkɨn tatyi. Soma suni kueka iyo ya'a tyi ntuvoi nute majan, ntuvi tyi jika jiso dani nute, yatin, ɨjɨn, media ora vi iin kaa jen kanta dani nuu, yatin, de vjɨn, kɨ'ɨn dani nuu iyo nute, so na'a de kanta dani maa tyi jika iyo, koo a, ɨjɨn, suvi koo nute maa ya'a tyi ntu naa iyo nee vitan jen sa nkajie'e jiakɨn daja tuvo de kanta nute de koo tiempu tyi niso dani nute jika tuni a ke'en a nute sani dani nute ni'i dani.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundo
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - genero de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
- transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
- speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
- short-audio - duración del audio inferior a 2 segundos
- long-audio - duración del audio superior a 30 segundos

¡Participa!

Enlaces comunitarios

Traductores de Common Voice en Pontoon

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2