Common Voice Scripted Speech 23.0 - Copainalá Zoque
Locale: zoc
Size: 204.06 MB
Task: ASR
Format: MP3
License: CC-0
[Copainalá Zoque] — Copainalá Zoque (zoc)
Esta ficha técnica corresponde a la versión 23.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Copainalá Zoque (zoc). El conjunto de datos contiene 11 horas de grabaciones (11 horas validadas) de 12 hablantes.
Idioma
El zoque de Ocotepec, Chiapas, pertenece a la familia lingüística mixezoqueana que comprende dos ramas, la mixeana y la zoqueana. Según la clasificación propuesta por Wichmann (1995), Kaufman y Justeson (2004), y Zavala (2011), la rama zoqueana se divide en dos subgrupos: el zoqueano del Golfo y el zoqueano propiamente. Dentro de este último grupo se encuentran el zoque oaxaqueño que comprende dos lenguas zoqueanas habladas en los municipios de Santa María Chimalapa y San Miguel Chimalapa; el zoque chiapaneco (el cual cuenta con cuatro principales variedades dialectales) y el jitotolteco. El zoque de Ocotepec pertenece al zoque del noreste, que es una de las cuatro áreas dialectales del zoque hablado en Chiapas y Tabasco (Wonderly 1949). Dentro de la cadena dialectal del zoque del noroeste, además del zoque de Ocotepec, se encuentran las variantes de los pueblos de Tapalapa, Pantepec, Rayón, Tapilula, Chapultenango, Amatán (todos estos en Chiapas); y Tapijulapa y Oxolotán (en Tabasco). En la región central (ZC) se localizan las variantes de Tecpatán, Copainalá y Coapilla. Al sur se localiza la variante sureña (ZS) que se habló todavía a mediados del siglo pasado en Tuxtla Gutiérrez, Berriozábal, San Fernando y Ocozocoautla. La cuarta variante del zoque se conoce como variante norteña (ZN) y se habla en los pueblos de Francisco León y Ostuacán. Además de esas cuatro áreas dialectales, en Chiapas se habla otra lengua zoqueana recientemente identificada con el nombre de jitotolteco, apelativo asignado por hablarse en el municipio de Jitotol, Chiapas (Zavala 2011), esta variante se separó del zoque del noreste, hipótesis que se sustenta por los rasgos compartidos con esa cadena de variantes y que las otras cadenas no comparten. La lengua zoque de Ocotepec, se le conoce como ʹodetsame, que literalmente significa ‘la lengua hablada’. Los hablantes se autodenominan como ʹodepändam que significa ‘personas de la palabra’ o ‘personas que hablan la lengua zoque’. El término utilizado hoy en día para denominar al grupo lingüístico zoque (zoke) proviene del saludo apelativo para interpelar al interlocutor que aún se escucha en algunas comunidades. En Oxolotán y en Tapijulapa se usa la forma zoke-ta para saludar al padre o soke-na para saludar a la madre, mientras que en Ocotepec y Tapilula se usa la forma corta sok-tatay o sok-nanay. Actualmente, este saludo entre los zoques de Ocotepec, ya no se da entre la población en general, únicamente se puede escuchar entre las personas mayores de 80 años. Actualmente la lengua la aprenden los niños de las colonias de Ocotepec, pero a los niños de la cabecera municipal ya no se les enseñan la lengua en los hogares, aunque aún se puede aprender con los amigos o en la calle. Según los datos del censo general de población (INEGI 2020), el municipio de Ocotepec, Chiapas, arrojó un total de 14, 088 pobladores; 7,209 mujeres (51.2 %) y 6,879 hombres (48.8 %). Los habitantes de Ocotepec representaban el 0.25% de la población total de Chiapas en 2020.
Variantes
Únicamente se trabajó con la variante del zoque de Ocotepec.
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
Género | Porcentaje |
---|---|
Undefined | 56.0% |
Female Feminine | 44.0% |
Edad
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
Rango de edad | Porcentaje |
---|---|
Undefined | 9.0% |
Twenties | 38.0% |
Thirties | 22.0% |
Fourties | 31.0% |
Corpus de texto
Para realizar el trabajo de habla espontanea, se usaron textos ya publicados, dos tesis, una de maestría y una de doctorado, cinco cuentos en manuscrito y un poema. Se validaron aproximadamente 11,000 frases. La mayor parte de las frases validadas provienen de las dos tesis.
Sistema de escritura
Se utilizó el sistema arábico, consonantes y vocales que normalmente usa el español
Tabla de símbolos
p/b t/d k/g ts/ds ' m n ŋ w y l a e i o u ä ã ẽ ĩ õ ũ ä̃
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Teʹkodade yospabä teʹ kuy Te' po'atsat nimekede 'ombabä Teʹ mnanase syijkpa mijtsi Teʹomoʹuŋ wyäʹtjayajpa waye te' ŋgana'ŋ Teʹ näwayomo'is kyäʹmoʹtsyi majksykubyädiʹuŋde
Muestras automáticas aleatorias
Teʼ ʼunedaʼm wenediʼuŋ käwäʼnyaju.
‒ʼÄjtaʼm makaʼt ndsokyeʼ teʼ yomodaʼm-.
Näbuʼuŋ ‒ʼaŋgumaʼkäyubäʼtside yatsytsiʼis‒.
Tsaʼmaŋndsiʼäya teʼ ʼode teʼ ʼunedaʼm.
Myakwätsäktambaʼuŋ temäʼ tsaʼmomo.
Fuentes
De la Cruz Morales Román. Tesis de maestría, 2016, Lingüística, CIESAS. De la Cruz Morales Román. Tesis de doctorado, 2023, Lingüística, CIESAS. De la Cruz Morales Román. Manuscrito no publicado, 2024. De la Cruz Morales Román. Poesía no publicada, 2024.
Dominios textuales
General, Historia, Leyes y Gobierno, Naturaleza y Medio Ambiente
Procesamiento
Se seleccionaron los materiales adecuados en donde se extrajeron los textos. Se seleccionaron que comprendían y podían ser emitidos por los propios hablantes. Fueron 1503 frases seleccionadas. Todos los textos se pegaron en Excel.
Postprocesamiento recomendado
No conozco de alguna aplicación para recomendar.
Enlaces comunitarios
Se realizó una plática acerca del proyecto con las personas que les interesa la conservación de la lengua. Muchas personas les gustó la idea, pero solo pacas personas participaron.
Discusiones
No se llevó a cabo informes por línea con los participantes.
Contribuir
No se aplicó.
Autores de la ficha técnica
Román de la Cruz Morales romdelacruz.art@gmail.com
Criterios de citación
No aplica
Financiamiento
Fue financiado por Mozilla Foundation
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.