Common Voice Spontaneous Speech 3.0 - Wixárika

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 3/20/2026

Format: MP3

Size: 199.52 MB


Share

Description

A collection of spontaneous responses to questions in Wixárika (hch).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

hch — Wixárika (hch)

Esta ficha técnica corresponde a sps-corpus-3.0-2026-03-09 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para hch [Wixárika - hch]. El conjunto de datos contiene 1553 representando 10.14 horas de grabaciones (10.12 horas validadas) de 10 hablantes.

Partición de datos para modelado

Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.

Clips de audio

CategoríaClips%
Transcrito y validado1,54999.7%
Transcrito pendiente00.0%
Sin transcribir40.3%

Particiones de entrenamiento

CategoríaClips%
Train59938.6%
Dev49131.6%
Test45929.6%
Sin asignar40.3%

Cobertura de particiones de entrenamiento: 1,549 de 1,549 clips transcritos y validados (100.0%)

Transcripciones

Estado de transcripción

CategoríaClips%
Validadas1,549100.0%
Pendientes00.0%
Edited1,52498.4%

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

  1. ¿Ke peyɨanetɨ ʼapiini kwínie pereuyehɨatɨ pepɨreuyehɨa?

  2. ¿Ke peyɨanetɨ ‘uximaayatsika pepukaxei?

  3. ¿Meripaitɨ ke petiyuruwakai hiikɨ ri mɨpaɨ pemɨtiuyurieni pemɨkayɨwe tsiere titayari?

  4. ¿Teiwari ʼuximaayatsikaya tita petimate?

  5. ¿Meʼuyuatɨkaitɨ memɨteʼanayeneika naitɨ mayenɨtsírike ke ʼuyɨneme matɨari pepuxei?

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

  1. Ne ri kaunari ke memɨteuweewi nepɨka'unieríxɨ, xeikɨ́a paɨ nepɨtimaariwa kename méripai tɨ waníu kaunari me... me... meka... yeme waɨká meka'usaruwákai, 'iyá pɨta waaníu, naaná ya mɨti'ánene pɨta waníu metekumaɨwákai. Ne ri nemunieríxɨ kaunari, kaunari ke ri nepuxei.

  2. Mmm waɨká nerapiitɨ́ nepatɨa nemayekateitsíe, nemɨtiyu'ɨ́kitɨakaitsie Tepic ne'anayeyeiximetɨ ri 'aana, como nemanayeyanikekai, 'e, nepɨkayɨwékai yeme 'aana nepuyutanɨi, ne'uyutaniɨka 'aana nepetɨa ne'escuela ne'anayeyaniké.

  3. Ne nepɨkanewaɨriyakai, kwiiniya netsiʼukuwiyaku ke nepunetawaɨrí, cáncer netsiʼukuwiyaku hiikɨ ʼaixɨ nepɨreuʼerie ʼeena nemuyeika, nemuʼuayemárie.

  4. Hawai waníu ʼixɨarari meuweewíyuka nepaapáma nepanutíyerie kawayatsie, nepuhɨiya neʼanakaweníkɨ, ʼɨkari manakuweeraka mepɨnetsiʼuhɨa, ya meneteuʼiikátaka tepekɨ, Kawí Manáwe waníu reyetewakaku ʼixɨarari meuweewíyuka mepuyɨximekai, muuwa pai tɨ tepetaʼaxɨa, ʼixɨarari mepeweewi tetáʼaxɨaka muuwa teheʼuuwátɨ, mɨixa tehetihika tepakunuaxɨa ya xeikɨ́a netiuʼiikátsiwatɨ.

  5. Ne rikɨ nepɨtikuʼeriwa huutame yeiyari memuweiyakɨ xɨari tayeiyari peuyewexime, mɨɨkɨ tatɨ tɨɨriyari meteyuʼɨ́kitɨatɨ xeíme xeikɨ́a meʼuweiyatɨ yuyeiyari mepayexeiyakai ʼaixɨ ʼanemekɨ, hiikɨ ri memɨteyuʼɨ́kitɨatɨwe tɨɨrí teiwari kie timieme, mɨɨkɨ ri maana ʼuúxi puyɨne, maana ri tukaari mepeuyehɨpa, ke mɨtiumiekai wixárika mɨpaɨ ri mepɨkaʼikuyuruwa, ˀayumie ri mɨɨkɨ pɨreuyewexime.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • audio_id - id numérico para archivo de audio

  • audio_file - nombre del archivo de audio

  • duration_ms - duración del audio en milisegundos

  • prompt_id - id numérico para el prompt

  • prompt - pregunta para el usuario

  • transcription - transcripción de la respuesta al audio

  • votes - número de personas quiene aprobaron cierta transcripción

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • language - nombre de la lengua

  • split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip

  • char_per_sec - cuántos caracteres de transcripción por segundo de audio.

  • quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |

    • transcription-length - caracteres por segundo inferior a 3 caracteres por segundo

    • speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo

    • short-audio - duración del audio inferior a 2 segundos

    • long-audio - duración del audio superior a 5 minutos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2