Trabajo de Campo - Huave
License:
CC-BY-4.0
Steward:
Universidad Autónoma Nacional de MéxicoTask: ASR
Release Date: 2/13/2026
Format: MP3, TSV
Size: 538.25 MB
Share
Description
Un corpus de audio anotado de la región de San Mateo del Mar, Oaxaca, una lengua de comunidades originarias de México. El corpus contiene monólogos y diálogos de la comunidad de San Mateo del Mar. Contiene un archivo `tsv` con transcripciones, traducciones y etiquetas POS dependiendo de la fuente de datos. Esto es, algunas transcripciones tienen traducción y algunas etiquetas. También contiene un conjunto de monólogos no etiquetados en archivos de audio que contienen listas de palabras, narraciones, elicitaciones y archivos transcritos y traducidos. Para más información, consultar el repositorio del analizador morfológico en: https://github.com/apertium/apertium-huv/ o el artículo "Towards a finite-state morphological analyser for San Mateo Huave".
Specifics
Licensing
Creative Commons Attribution 4.0 International (CC-BY-4.0)
https://spdx.org/licenses/CC-BY-4.0.htmlConsiderations
Restrictions/Special Constraints
Sin restricciones de momento
Forbidden Usage
Sin prohibiciones de momento
Metadata
Ombeayiüts — San Mateo del Mar Huave (huv)
Un corpus de audio anotado de la región de San Mateo del Mar, Oaxaca, una
lengua de comunidades originarias de México. El corpus contiene monólogos y
dialogos de la comunidad de San Mateo del Mar. Contiene un archivo tsv con
transcripciones, traducciones y etiquetas POS dependiendo de la fuente de
datos. Esto es, algunas transcripciones tienen traducción y algunas etiquetas.
Tambien contiene un conjunto de monologos no etiquetados.
Para más información consultar el repositorio del analizador morfológico en: https://github.com/apertium/apertium-huv/ o el artículo "Towards a finite-state morphological analyser for San Mateo Huave".
Idioma
El huave es una lengua aislada hablada en la costa del estado de Oaxaca, México. Específicamente, la variante de San Mateo del Mar es referida por sus hablantes como ombeayiüts (que significa 'nuestra lengua'). Es una lengua aglutinante con una morfología moderadamente compleja, que utiliza tanto prefijos como sufijos. A diferencia de muchas lenguas indígenas de México, en San Mateo del Mar el idioma sigue siendo ampliamente hablado tanto por adultos como por niños, aunque se observan inicios de desplazamiento lingüístico. Según datos del Instituto Nacional de Estadística, Geografía e Información, INEGI de 2020, la población de hablantes mayores de tres años en San Mateo del Mar era de 14,034.
Variantes
El huave se habla en cuatro municipios principales: San Mateo del Mar, Santa María del Mar, San Francisco del Mar y San Dionisio del Mar. Existen dos agrupaciones lingüísticas principales:
Huave occidental: Incluye las variantes habladas en San Mateo del Mar y Santa María del Mar.
Huave oriental: Incluye las variantes habladas en San Francisco del Mar y San Dionisio del Mar. Este conjunto de datos y el trabajo descrito se centran en la variante de San Mateo del Mar, que es la que cuenta con el mayor número de hablantes.
Corpus de texto
Este corpus tiene la siguiente estructura de carpetas:
huave_dataset/
├── audios/ # Audios con transcripciones
├── huave_dataset.tsv # Ids de los audios, ruta y metadatos
└── raw_audios/ # Grabaciones sin transcripción ni cortadas
En total se tienen 18.9 minutos de audios etiquetados y transcritos. De audios crudos se tienen 1175 minutos (~19.5 horas) y en total el corpus cuenta con 1194 minutos (~19.9 horas).
Sistema de escritura
El huave ha tenido varias propuestas ortográficas. Históricamente, destaca la ortografía utilizada en la traducción del Nuevo Testamento y el diccionario de Stairs y Stairs (1981), la cual seguía convenciones basadas en el español (por ejemplo, usando 'qui' y 'cua' para /ki/ y /kwa/).
Sin embargo, textos más recientes producidos por los propios hablantes utilizan una ortografía práctica que reemplaza esas convenciones por k y kw (por ejemplo, mikiej y kwane en lugar de miquiej y cuane). Los recursos modernos suelen adoptar esta ortografía reciente propuesta y usada por los hablantes.
Tabla de símbolos
El sistema utiliza el alfabeto latino. Basado en la descripción fonológica y ortográfica del documento, los caracteres relevantes incluyen:
Vocales:
a, e, i, o, u, ü. Las vocales pueden ser largas (a veces representadas con vocales dobles o diacríticos en análisis fonológico).Consonantes:
b, ch, d, g, gw, j, k, kw, l, m, n, p, r, rr, s, t, ts, w, x, y.Notas: La
'j'representa la aspiración/h/. Existen contracciones y morfología compleja que pueden afectar la escritura de las palabras.
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
al mohkom tingal mahaw
ap'ür mahaw t'ül ap'üng nawa:k mipük' s'iül
ajkuw monxey kiaj nendokoj
ike ngomijier nop pet
ajküw peats ngomarangüüch con os
Agradecimientos
Autores de la ficha técnica
Samuel Herrera Castro
Criterios de citación
Si utiliza la información lingüística o las herramientas derivadas de este trabajo, por favor cite el artículo original:
@inproceedings{tyers-castro-2023-towards,
title = "Towards a finite-state morphological analyser for San Mateo Huave",
author = "Tyers, Francis M. and
Castro, Samuel Herrera",
editor = "Harrigan, Atticus and
Chaudhary, Aditi and
Rijhwani, Shruti and
Moeller, Sarah and
Arppe, Antti and
Palmer, Alexis and
Henke, Ryan and
Rosenblum, Daisy",
booktitle = "Proceedings of the Sixth Workshop on the Use of Computational Methods in the Study of Endangered Languages",
m mar,
year = "2023",
address = "Remote",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.computel-1.5/",
pages = "30--37"
}
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.