Common Voice Spontaneous Speech 2.0 - Wixárika

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 198.80 MB


Share

Description

A collection of spontaneous spoken phrases in Wixárika.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Wixárika — Wixárika (hch)

Esta hoja de datos ha sido generada automáticamente, nos encantaría incluir más información, si deseas ayudar, ¡ponte en contacto con nosotros!

Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Wixárika (hch). El conjunto de datos contiene 1553 representando 11 horas de grabaciones (11 horas validadas) de 10 hablantes.

Partición de datos para modelado

ParticiónCuenta
Train592
Test467
Dev490

Transcripciones

  • Preguntas: 236

  • Duración total: 10:08:28 [h:m:s]

  • Longitud promedio de transcripción (en carácteres): 205

  • Duración promedio: 23.51[s]

  • Duración validada: 36443.448[s]

  • Horas totales: 10.14[h]

  • Horas validas: 10.12[h]

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

¿Wiixárika weewiyate tita pekatimate?
¿Matɨari teiwari tiʼuayemawame matsiutaʼixɨaritsie ke petiutiʼeri?
¿Teiwarixi kemarieya ke ʼáneneme pemɨranakapiiká matsinake tsiere titayari?
¿Ke peyɨanetɨ heiwa kwínie pepɨtiuwe?
¿Meripaitɨ ke petiyuruwakai hiikɨ ri mɨpaɨ pemɨtiuyurieni pemɨkayɨwe tsiere titayari?
Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Ne kuxi takwatsi nemutaweewíeni nepɨkayɨwe ya xeeníu 'iyá 'uweni nemutaweewíeni nepɨkayɨwe, nepɨka'uneta'ɨ́kitɨa pues, ya tepu tsiere nemutaweewíeni nemɨkayɨwe, maatsi kuxi nepɨkatimaiwé waɨkawa xɨka ne... neyɨweni ya nepɨkatiyɨwe pues, nepɨkaneta'ɨ́kitɨawe kuxi.
Nunuutsiyari ne teiwari neputimaka. Méripai tɨ peta'axikekai xewítɨ, kwiniya xeeníu muyeikakai "papanicolau" ke paɨ mete'iterɨwátɨ, mɨɨkɨ matɨari pɨne... pɨnetsi'u... maatɨari mɨɨkɨ ne'uxeiyaka ti'uayemawaame ne... ne... nepitimaka, ne... nepɨka'inaki'eríekai mɨnetsikutseweni xeeníu.
Teiwari kémarieya ne pɨkanetsinake, nekémari xeikɨ́a nepɨraʼeriwa, mɨɨkɨ nepɨkaratɨmaiya.
Heiwamie, eh, nereunanaimieka Tsiikwáita reyetewakaku, 'aana muuwa neheyaka, ta... takie ya mɨtiuku'ánene, 'axa mɨtiuku'ánene muku'ayepariyatɨka, 'aki 'utɨa ne'anuyaka 'auríe muuwa peuku'ayepariyatɨkatei, muuwa neheukamietɨ kauka nenekaxikiunaxɨ ne'unautsárɨmetɨ ne... nemeyɨanekai kauka ke nemɨreke 'aana kwinie nepɨrewe, naitɨ nepetatumuanaxɨa, ne'anukukeka ta neyutakatséka tawaarí nepetɨa muuwa keewa nemeuyakái.
Méripai yaakɨ nemɨreuʼeriekaitsie, ʼakuxi nemɨyɨwékaitsie nepɨwaikakai volley, hiikɨ ta ri ʼeena ratimietɨ nekwayɨwe.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • audio_id - id numérico para archivo de audio

  • audio_file - nombre del archivo de audio

  • duration_ms - duración del audio en milisegundo

  • prompt_id - id numérico para el prompt

  • prompt - pregunta para el usuario

  • transcription - transcripción de la respuesta al audio

  • votes - número de personas quiene aprobaron cierta transcripción

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • language - nombre de la lengua

  • split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip

  • char_per_sec - cuántos caracteres de transcripción por segundo de audio.

  • quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |

    • transcription-length - caracteres por segundo inferior a 3 caracteres por segundo

    • speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo

    • short-audio - duración del audio inferior a 2 segundos

    • long-audio - duración del audio superior a 30 segundos

¡Participa!

Enlaces comunitarios

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2