Common Voice Spontaneous Speech 1.0 - Huichol

Locale: hch

Size: 199 MB

Task: ASR

Format: MP3

License: CC-0


Wixárika — Wixárika (hch)

Esta hoja de datos ha sido generada automáticamente, nos encantaría incluir más información, si deseas ayudar, [¡ponte en contacto con nosotros!](get in touch

Esta ficha técnica corresponde a la versión 23.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Wixárika (hch). El conjunto de datos contiene 1553 representando 11 horas de grabaciones (11 horas validadas) de 10 hablantes.

Información demográfica

El conjunto de datos incluye la siguiente distribución de edad y género.

Género

Información de género autodeclarada; la frecuencia se refiere al número de fragmentos anotados con este género.

Edad

Información de edad autodeclarada; la frecuencia se refiere al número de fragmentos anotados con esta franja etaria.

Partición de datos para modelado

ParticiónCuenta
Train857
Dev472

Transcripciones

  • Prompts: 236

  • Duration: 36508932[ms]

  • Avg. Transcription Len: 204

  • Avg. Duration: 23.51[s]

  • Valid Duration: 36443.45[s]

  • Total hours: 10.14[h]

  • Valid hours: 10.12[h]

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

¿ʼAkɨpá ke peʼakatɨɨtɨ matsinake tsiere titayari?
¿Ke tiu'anekaku pemukaní matsinake, 'uhaɨtɨkaku nutsu 'uxɨkakaku tsiere titayari?
¿Ke petimaariwa ʼunetsi ke tiʼɨwíyarɨwa?
¿Wiixárika hiikɨ mieme titayari naitsarie tikuyeika ke petikuʼeriwa?
¿Pemekatsie huyé mekuhapane ke heʼánene?
Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Tsitihaɨtɨtɨ tineʼiiyákai ʼixɨarari weewiyakaku, neʼiyaari ʼaixɨ neuyɨ, mɨɨkɨ neneunákixɨ.
Mɨpaɨ ti'anemetsie nemɨkareyeyeixakai 'aana, nemanutiyatsie ne... nepemaxikɨrí, ne... nepetahaya, ne'utahewatɨ yeme neputá'a 'eena pai tɨ.
Méripai nunuutsiyari Tepiki nehewiitɨkíeka, ʼikwai mɨrewatuiyatsíe neheutáhatɨarieka ketsɨ́te, tɨɨkɨ́xi nepɨwaraʼinɨatáxɨ.
Hipátɨ waníu waɨríyarika mepɨyu'ɨ́kitɨa, meyuhakíetɨ, meu'uuwatɨ kaakaɨyarita, hipátɨ ta ri waníu meteutinunuiwá, ya me'ánenetɨ waníu me'anutetɨ hipátɨ metetinunuiwá.
Nepaʼeriwa ʼutsí nepɨtaiyákai, katiira, tai. Paɨ xeikɨ́a.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • audio_id - id numérico para archivo de audio

  • audio_file - nombre del archivo de audio

  • duration_ms - duración del audio en milisegundo

  • prompt_id - id numérico para el prompt

  • prompt - pregunta para el usuario

  • transcription - transcripción de la respuesta al audio

  • votes - número de personas quiene aprobaron cierta transcripción

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • language - nombre de la lengua

  • split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip

  • char_per_sec - cuántos caracteres de transcripción por segundo de audio.

  • quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |

    • transcription-length - caracteres por segundo inferior a 3 caracteres por segundo

    • speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo

    • short-audio - duración del audio inferior a 2 segundos

    • long-audio - duración del audio superior a 30 segundos

Enlaces comunitarios

Contribuir

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2