Common Voice Scripted Speech 25.0 - Seri

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 3/22/2026

Format: MP3

Size: 209.17 MB


Share

Description

A collection of read speech recordings in Seri (sei).

Specifics

Licensing

Creative Commons Zero v1.0 Universal (CC0-1.0)

https://spdx.org/licenses/CC0-1.0.html

Considerations

Restrictions/Special Constraints

None provided.

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

sei — Seri (sei)

Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para sei [Seri - sei]. El conjunto de datos contiene 8310 clips representando 10.46 horas de grabaciones (10.08 horas validadas) de 17 hablantes, grabados a partir de un corpus de texto de 1615 oraciones.

Idioma

El idioma seri, conocida como cmiique iitom [kw̃ĩˈkiitom] en el idioma mismo, se habla a lo largo del Golfo de California en el estado mexicano de Sonora. Desde 1970, el pueblo seri vive en un ejido decretado por el presidente mexicano, que incluye dos pueblos, Socaaix (Punta Chueca) y Haxöl Iihom (Desemboque). Hoy en día hay alrededor de 900 hablantes del idioma.

El seri es una lengua aislada, aunque claramente ha tenido una larga historia de contacto y préstamo con otras lenguas indígenas de la región del desierto de Sonora. El seri se caracteriza por patrones morfologicos con núcleo marcado. Su sintaxis muestra orden núcleo final, lo que se observa, por ejemplo, en el orden básico de palabra SOV. Los pronombres se omiten con frecuencia y la lengua hace un uso extensivo del encadenamiento de cláusulas. En lugar de adposiciones, la lengua utiliza sustantivos relacionales que están poseídos por el nominal que modifica. Su fonología no destaca mucho, pero la lengua permite grupos consonánticos complejos y muestra ensordecimiento consonántico y vocálico.

Variantes

No hay diferencias dialectales significativas en las dos comunidades donde se habla seri.

Acentos

CodeAccentClipsSpeakers
-5 (0.1%)1 (5.9%)

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

CodeGenderClipsSpeakers
male_masculineMale, masculine--
female_feminineFemale, feminine6695 (80.6%)8 (47.1%)
transgenderTransgender--
non-binaryNon-binary--
do_not_wish_to_sayPrefer not to say103 (1.2%)1 (5.9%)
-Unspecified1512 (18.2%)9 (52.9%)

Gender declared: 6798 of 8310 clips (81.8%), 8 of 17 speakers (47.1%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

CodeAgeClipsSpeakers
teensTeens--
twentiesTwenties1951 (23.5%)4 (23.5%)
thirtiesThirties2227 (26.8%)3 (17.6%)
fourtiesFourties4029 (48.5%)5 (29.4%)
fiftiesFifties--
sixtiesSixties--
seventiesSeventies--
eightiesEighties--
ninetiesNineties--
-Unspecified103 (1.2%)7 (41.2%)

Age declared: 8207 of 8310 clips (98.8%), 10 of 17 speakers (58.8%)

Partición de datos para modelado

Clip buckets

BucketClips
Validated8006 (96.3%)
Invalidated254 (3.1%)
Other50 (0.6%)

Training splits

SplitClips
Train728 (9.1%)
Dev435 (5.4%)
Test452 (5.6%)

Training split coverage: 1615 of 8006 validated clips (20.2%)

El conjunto de datos contiene 8006 clips validados, 254 invalidados y 50 sin resolver. La duración promedio de los clips es de 4.535 segundos.

Corpus de texto

Validated sentences: 1615

CategoryCount
Unvalidated sentences-
Pending sentences-
Rejected sentences-
Reported sentences-

El corpus contiene 1615 oraciones: 1615 validadas y 0 no validadas (0 pendientes de revisión, 0 rechazadas), con 0 reportadas para revisión.

Sistema de escritura

El sistema de escritura del idioma seri se desarrolló en la década de 1950 y se ajusta lo más posible a la ortografía española, en particular al uso de la c y la qu para el fonema /k/, y el uso del acento para marcar el énfasis en posiciones no estándar. Consta de 23 letras y dos dígrafos, y se atiene estrechamente al inventario de fonemas.

Tabla de símbolos

a, aa, c, cö, e, ee, f, h, i, ii, j, jö, l, ḻ, m, n, o, oo, p, qu, r, s, t, x, xö, y, z

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

  1. He hant pofii ta, potaaplc ta, ihpatj, he saahit caha.

  2. Ihamoc cop hiiqui maanim.

  3. Taalim ma, itoaa cop xpeemoja z ano cötapxölim ma, hant tfii ma, yahtaap.

  4. Miyat hac iti hsiiquim aha.

  5. Matix xah ma hpooho x, anxö hiisax hant sooit aha.

Fuentes

Moser, Mary Beck, & Marlett, Stephen A. (Eds.). (2010). Comcáac quih yaza quih hant ihíip hac: cmiique iitom, cocsar iitom, maricáana iitom. Plaza y Valdes.

SourceSentences
Comcaac quih yaza quih hant ihiip hac / Comunidad Seri818 (50.7%)
Comcaac quih yaza quih hant ihiip hac / Comunidad seri784 (48.5%)
Other13 (0.8%)

Dominios textuales

Las oraciones son uniformemente oraciones de ejemplo de diccionario, aunque algunas de ellas provienen de textos orales.

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

  • client_id - UUID hasheado de cierto usuario

  • path - ruta relativa al archivo de audio

  • text - presunta transcripción del audio

  • up_votes - número de personas que dijeron que el audio concordaba con el texto

  • down_votes - número de personas que dijeron que el audio no concordaba con el texto

  • age - edad de los hablantes1

  • gender - genero de los hablantes1

  • accents - acentos de los hablantes1

  • variant - variante del idioma1

  • segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí

  • prompt_upvotes - número de votos positivos que recibió la oración

  • prompt_reports - número de reportes que recibió la oración

  • is_edited - si la transcripción del clip ha sido editada

validated_sentences.tsv

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

  • sentence_id - identificador único de la oración

  • sentence - el texto de la oración

  • variant - la variante del idioma

  • sentence_domain - el/los dominio(s) a los que pertenece la oración

  • source - la fuente de donde se recopiló la oración

  • is_used - si la oración sigue en circulación para grabación

  • clips_count - número de clips grabados para esta oración

unvalidated_sentences.tsv

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

  • sentence_id - identificador único de la oración

  • sentence - el texto de la oración

  • variant - la variante del idioma

  • sentence_domain - el/los dominio(s) a los que pertenece la oración

  • source - la fuente de donde se recopiló la oración

  • up_votes - número de votos positivos que recibió la oración

  • down_votes - número de votos negativos que recibió la oración

  • status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

  1. Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. 2 3 4