Tsakonian Digital es un proyecto destinado a apoyar los esfuerzos de preservación y revitalización de la lengua tsakonia —el último descendiente superviviente del griego dórico antiguo (ver 1.1 Descripción general)— mediante el suministro de recursos y herramientas digitales para aprender y utilizar el idioma. El proyecto está liderado por Jaime García Chaparro, Científico de Datos Senior con sede en Madrid, España, centrado en el desarrollo técnico (recogida de datos, entrenamiento de modelos, desarrollo del sitio web) y el Prof. Maxim Kisilier, con sede en San Petersburgo, en la parte lingüística e institucional, como uno de los principales expertos en tsakonio a nivel mundial. (García Chaparro, 2025)
Para el contexto de los esfuerzos de revitalización, ver 1.2 Historia y estado. Las ortografías soportadas por el diccionario se describen en 3.1 Ortografía.
Gran parte del material utilizado en el proyecto ha sido facilitado por el Archivo Tsakonio o por el lugareño Panos Marneris, cuyos esfuerzos en la preservación de la lengua y el apoyo a Tsakonian Digital son profundamente apreciados. (García Chaparro, 2025)
Herramientas y Recursos
Desde su inicio en julio de 2023, el proyecto ha desarrollado las siguientes herramientas y recursos: (García Chaparro, 2025)
- Diccionario en línea
- Traductor Automático Neuronal (NMT)
- Corpus bilingüe
- Extensión de teclado: Una extensión de teclado tsakonio, que permite escribir en tsakonio con la ortografía de Kostakis en ordenadores.
Diccionario en línea
El Diccionario Tsakonian Digital, lanzado en 2023, es el primer diccionario en línea para este idioma. Actualmente cuenta con unos 1.300 términos y admite traducciones bidireccionales entre tsakonio y griego, inglés y español. (García Chaparro, 2025)
| Característica | Detalles |
|---|---|
| Año de lanzamiento | 2023 |
| Términos | ~1.300 |
| Idiomas | Griego, inglés, español |
| Pila tecnológica | Python / Django, backend SQLite |
| Ortografías | Kostakis, Nowakowski, Marneris |
| Acceso | tsakoniandigital.com |
El diccionario está construido con Python y el framework Django, diseñado para una fácil extensibilidad y mantenimiento. Utiliza la ortografía de Kostakis como estándar e incluye un script conversor automático para cambiar de ortografía sobre la marcha. (García Chaparro, 2025)
La fuente principal es Para preservar nuestra lengua (Για να κ̔οντούμε τα γρούσσα νάμου) (Gia na khondoúme ta groússa námou) de Ioannis Kamvysis, complementada por el Diccionario del dialecto tsakonio (1986) de Thanasis Kostakis y volúmenes seleccionados de las Crónicas Tsakonias (Χρωνικά των Τσακώνων) (Chroniká ton Tsakónon). (García Chaparro, 2025)
Se proporciona información gramatical siempre que está disponible: (García Chaparro, 2025)
- Verbos: aoristo en indicativo y subjuntivo, participio, subjuntivo presente (si es diferente del indicativo presente).
- Sustantivos: género (vía el artículo), plural y forma de genitivo (si existe).
- Adjetivos: terminaciones de singular masculino, femenino y neutro.
Las características en desarrollo incluyen ejemplos de frases, marcado de uso dialectal, tablas de conjugación de verbos y ampliación de la sección de Gramática con tablas de paradigmas. (García Chaparro, 2025)
Traductor Automático Neuronal (NMT)
El NMT de Tsakonian Digital es el primer modelo de traducción automática neuronal capaz de traducir entre tsakonio y griego en ambas direcciones. El modelo es de código abierto y está disponible en HuggingFace. (García Chaparro, 2025)
| Característica | Detalles |
|---|---|
| Modelo base | Gemma 2 9B |
| Método de ajuste fino | QLoRA (Quantized Low-Rank Adaptation) |
| Corpus de entrenamiento | 1.600+ pares de frases bilingües (tsakonio-griego) |
| División del corpus | 80% entrenamiento, 10% validación, 10% prueba |
| Métricas de evaluación | BLEU, ChrF++ |
| Hardware de entrenamiento | 1× GPU A100 (~1 hora por modelo) |
| Épocas | 2 |
| Tasa de aprendizaje | 5e-5 (decaimiento de coseno) |
Se probaron varias configuraciones de rango LoRA (r). BLEU (Bilingual Evaluation Understudy) y ChrF++ son métricas de evaluación automática estándar para la traducción automática: BLEU mide el solapamiento de n-gramas entre la salida del modelo y las traducciones de referencia (0-100, cuanto más alto mejor), mientras que ChrF++ mide la similitud a nivel de caracteres. La siguiente tabla resume las puntuaciones en dos conjuntos de evaluación: (García Chaparro, 2025)
Conjunto de evaluación 1 (27 frases por dirección; fuente: Kamvysis)
| Rango (r, α) | BLEU Tsd→Ell | BLEU Ell→Tsd | ChrF++ Tsd→Ell | ChrF++ Ell→Tsd |
|---|---|---|---|---|
| Modelo base | 0,37 | 0,16 | 10,40 | 5,55 |
| r=16, α=8 | 52,32 | 41,39 | 69,61 | 68,45 |
| r=32, α=16 | 49,89 | 44,60 | 67,44 | 69,66 |
| r=64, α=32 | 44,05 | 47,21 | 63,47 | 70,88 |
| r=128, α=64 | 44,71 | 41,61 | 61,99 | 66,56 |
Conjunto de evaluación 2 (25 frases por dirección; fuentes: Lysikatos, Marneris)
| Rango (r, α) | BLEU Tsd→Ell | BLEU Ell→Tsd | ChrF++ Tsd→Ell | ChrF++ Ell→Tsd |
|---|---|---|---|---|
| Modelo base | 1,46 | 0,34 | 20,11 | 11,16 |
| r=16, α=8 | 46,05 | 37,51 | 65,04 | 62,38 |
| r=32, α=16 | 43,88 | 34,28 | 63,23 | 59,87 |
| r=64, α=32 | 38,50 | 33,25 | 60,27 | 60,50 |
| r=128, α=64 | 34,12 | 33,37 | 54,18 | 57,41 |
La configuración r=16 arrojó los resultados más competitivos en general, con una notable excepción en griego→tsakonio en el conjunto de evaluación 1, donde r=64 devolvió las mejores puntuaciones. El artículo atribuye esto a que los modelos más pequeños logran un equilibrio óptimo entre la captura de tendencias lingüísticas y evitar el sobreajuste en el limitado conjunto de datos. (García Chaparro, 2025)
Pipeline de puente de IA: El modelo NMT también sirve como intermediario para permitir la interacción del tsakonio con plataformas de IA comerciales (por ejemplo, Google Translate, DeepL, GPT, Gemini). El pipeline traduce la entrada en tsakonio al griego, pasa el texto en griego a la plataforma comercial y traduce la respuesta de nuevo al tsakonio. Esto evita la necesidad de entrenar directamente un modelo de IA centrado totalmente en el tsakonio con datos extremadamente escasos. (García Chaparro, 2025)
Corpus Bilingüe
El corpus bilingüe tsakonio-griego, compilado como parte del proyecto, contiene más de 1.600 pares de frases adecuadas para el entrenamiento de NMT. Las fuentes incluyen textos publicados, transcripciones de trabajo de campo y traducciones manuales. Todas las muestras se almacenan en la ortografía de Kostakis; un script de Python convierte las muestras escritas en otros sistemas. (García Chaparro, 2025)
El corpus se divide en conjuntos de entrenamiento (80%), validación (10%) y prueba (10%). Cada par se desdobla en dos muestras (tsakonio→griego y griego→tsakonio) para admitir la traducción bidireccional. (García Chaparro, 2025)
Se derivaron dos conjuntos de datos de evaluación a partir del conjunto de prueba: (García Chaparro, 2025)
| Conjunto de evaluación | Frases por dirección | Fuentes principales | Propósito |
|---|---|---|---|
| Conjunto 1 | 27 | Kamvysis (texto publicado) | Benchmark básico y seguimiento del progreso |
| Conjunto 2 | 25 | Lysikatos, Marneris (crónicas, textos en línea) | Generalización a frases más complejas |
Etapas del Proyecto
El proyecto se dividió a grandes rasgos en tres pasos: (García Chaparro, 2025)
- Etapa lingüística: se ocupa de las bases teóricas fundamentales para el estudio de la lengua, la investigación sobre la situación actual del idioma, los recursos disponibles y la creación de materiales auxiliares como el diccionario digital.
- Etapa de recogida de datos: tiene como objetivo reunir información bruta para construir un corpus paralelo que almacene frases en tsakonio junto con traducciones al griego estándar moderno.
- Etapa de construcción de la IA: se centra en el entrenamiento de un sistema de Modelo de Lenguaje Grande (LLM) capaz de realizar tareas de traducción y otras operaciones de procesamiento lingüístico.
Hitos
Los avances anuales se presentan en la sesión de clausura de la Escuela de Verano de Tsakonia en Leonidio. (García Chaparro, 2025)
- 2024: Primer lanzamiento público del diccionario.
- 2025: Presentación del modelo de traducción por IA y ampliación del diccionario al inglés y al español.
A partir de noviembre de 2025, se han completado las etapas fundacionales del proyecto, y el equipo se centra en ampliar el diccionario y mejorar el modelo de traducción. (García Chaparro, 2025)
Referencias
- García Chaparro, J. (2025). Acerca de Tsakonian Digital. About Tsakonian Digital Source.md
- García Chaparro, J. (2025). Tsakonian Digital: el viaje del tsakonio hacia la Inteligencia Artificial. Actas de MGDLT9. Tsakonian Digital Tsakonian’s journey towards Artificial Intelligence.md
Tsakonian Digital Vault