Tsakonian Digital es un proyecto destinado a apoyar los esfuerzos de preservación y revitalización de la lengua tsakonia —el último descendiente superviviente del griego dórico antiguo (ver 1.1 Descripción general)— mediante el suministro de recursos y herramientas digitales para aprender y utilizar el idioma. El proyecto está liderado por Jaime García Chaparro, Científico de Datos Senior con sede en Madrid, España, centrado en el desarrollo técnico (recogida de datos, entrenamiento de modelos, desarrollo del sitio web) y el Prof. Maxim Kisilier, con sede en San Petersburgo, en la parte lingüística e institucional, como uno de los principales expertos en tsakonio a nivel mundial. (García Chaparro, 2025)

Para el contexto de los esfuerzos de revitalización, ver 1.2 Historia y estado. Las ortografías soportadas por el diccionario se describen en 3.1 Ortografía.

Gran parte del material utilizado en el proyecto ha sido facilitado por el Archivo Tsakonio o por el lugareño Panos Marneris, cuyos esfuerzos en la preservación de la lengua y el apoyo a Tsakonian Digital son profundamente apreciados. (García Chaparro, 2025)

Herramientas y Recursos

Desde su inicio en julio de 2023, el proyecto ha desarrollado las siguientes herramientas y recursos: (García Chaparro, 2025)

  1. Diccionario en línea
  2. Traductor Automático Neuronal (NMT)
  3. Corpus bilingüe
  4. Extensión de teclado: Una extensión de teclado tsakonio, que permite escribir en tsakonio con la ortografía de Kostakis en ordenadores.

Diccionario en línea

El Diccionario Tsakonian Digital, lanzado en 2023, es el primer diccionario en línea para este idioma. Actualmente cuenta con unos 1.300 términos y admite traducciones bidireccionales entre tsakonio y griego, inglés y español. (García Chaparro, 2025)

CaracterísticaDetalles
Año de lanzamiento2023
Términos~1.300
IdiomasGriego, inglés, español
Pila tecnológicaPython / Django, backend SQLite
OrtografíasKostakis, Nowakowski, Marneris
Accesotsakoniandigital.com

El diccionario está construido con Python y el framework Django, diseñado para una fácil extensibilidad y mantenimiento. Utiliza la ortografía de Kostakis como estándar e incluye un script conversor automático para cambiar de ortografía sobre la marcha. (García Chaparro, 2025)

La fuente principal es Para preservar nuestra lengua (Για να κ̔οντούμε τα γρούσσα νάμου) (Gia na khondoúme ta groússa námou) de Ioannis Kamvysis, complementada por el Diccionario del dialecto tsakonio (1986) de Thanasis Kostakis y volúmenes seleccionados de las Crónicas Tsakonias (Χρωνικά των Τσακώνων) (Chroniká ton Tsakónon). (García Chaparro, 2025)

Se proporciona información gramatical siempre que está disponible: (García Chaparro, 2025)

  • Verbos: aoristo en indicativo y subjuntivo, participio, subjuntivo presente (si es diferente del indicativo presente).
  • Sustantivos: género (vía el artículo), plural y forma de genitivo (si existe).
  • Adjetivos: terminaciones de singular masculino, femenino y neutro.

Las características en desarrollo incluyen ejemplos de frases, marcado de uso dialectal, tablas de conjugación de verbos y ampliación de la sección de Gramática con tablas de paradigmas. (García Chaparro, 2025)

Traductor Automático Neuronal (NMT)

El NMT de Tsakonian Digital es el primer modelo de traducción automática neuronal capaz de traducir entre tsakonio y griego en ambas direcciones. El modelo es de código abierto y está disponible en HuggingFace. (García Chaparro, 2025)

CaracterísticaDetalles
Modelo baseGemma 2 9B
Método de ajuste finoQLoRA (Quantized Low-Rank Adaptation)
Corpus de entrenamiento1.600+ pares de frases bilingües (tsakonio-griego)
División del corpus80% entrenamiento, 10% validación, 10% prueba
Métricas de evaluaciónBLEU, ChrF++
Hardware de entrenamiento1× GPU A100 (~1 hora por modelo)
Épocas2
Tasa de aprendizaje5e-5 (decaimiento de coseno)

Se probaron varias configuraciones de rango LoRA (r). BLEU (Bilingual Evaluation Understudy) y ChrF++ son métricas de evaluación automática estándar para la traducción automática: BLEU mide el solapamiento de n-gramas entre la salida del modelo y las traducciones de referencia (0-100, cuanto más alto mejor), mientras que ChrF++ mide la similitud a nivel de caracteres. La siguiente tabla resume las puntuaciones en dos conjuntos de evaluación: (García Chaparro, 2025)

Conjunto de evaluación 1 (27 frases por dirección; fuente: Kamvysis)

Rango (r, α)BLEU Tsd→EllBLEU Ell→TsdChrF++ Tsd→EllChrF++ Ell→Tsd
Modelo base0,370,1610,405,55
r=16, α=852,3241,3969,6168,45
r=32, α=1649,8944,6067,4469,66
r=64, α=3244,0547,2163,4770,88
r=128, α=6444,7141,6161,9966,56

Conjunto de evaluación 2 (25 frases por dirección; fuentes: Lysikatos, Marneris)

Rango (r, α)BLEU Tsd→EllBLEU Ell→TsdChrF++ Tsd→EllChrF++ Ell→Tsd
Modelo base1,460,3420,1111,16
r=16, α=846,0537,5165,0462,38
r=32, α=1643,8834,2863,2359,87
r=64, α=3238,5033,2560,2760,50
r=128, α=6434,1233,3754,1857,41

La configuración r=16 arrojó los resultados más competitivos en general, con una notable excepción en griego→tsakonio en el conjunto de evaluación 1, donde r=64 devolvió las mejores puntuaciones. El artículo atribuye esto a que los modelos más pequeños logran un equilibrio óptimo entre la captura de tendencias lingüísticas y evitar el sobreajuste en el limitado conjunto de datos. (García Chaparro, 2025)

Pipeline de puente de IA: El modelo NMT también sirve como intermediario para permitir la interacción del tsakonio con plataformas de IA comerciales (por ejemplo, Google Translate, DeepL, GPT, Gemini). El pipeline traduce la entrada en tsakonio al griego, pasa el texto en griego a la plataforma comercial y traduce la respuesta de nuevo al tsakonio. Esto evita la necesidad de entrenar directamente un modelo de IA centrado totalmente en el tsakonio con datos extremadamente escasos. (García Chaparro, 2025)

Corpus Bilingüe

El corpus bilingüe tsakonio-griego, compilado como parte del proyecto, contiene más de 1.600 pares de frases adecuadas para el entrenamiento de NMT. Las fuentes incluyen textos publicados, transcripciones de trabajo de campo y traducciones manuales. Todas las muestras se almacenan en la ortografía de Kostakis; un script de Python convierte las muestras escritas en otros sistemas. (García Chaparro, 2025)

El corpus se divide en conjuntos de entrenamiento (80%), validación (10%) y prueba (10%). Cada par se desdobla en dos muestras (tsakonio→griego y griego→tsakonio) para admitir la traducción bidireccional. (García Chaparro, 2025)

Se derivaron dos conjuntos de datos de evaluación a partir del conjunto de prueba: (García Chaparro, 2025)

Conjunto de evaluaciónFrases por direcciónFuentes principalesPropósito
Conjunto 127Kamvysis (texto publicado)Benchmark básico y seguimiento del progreso
Conjunto 225Lysikatos, Marneris (crónicas, textos en línea)Generalización a frases más complejas

Etapas del Proyecto

El proyecto se dividió a grandes rasgos en tres pasos: (García Chaparro, 2025)

  1. Etapa lingüística: se ocupa de las bases teóricas fundamentales para el estudio de la lengua, la investigación sobre la situación actual del idioma, los recursos disponibles y la creación de materiales auxiliares como el diccionario digital.
  2. Etapa de recogida de datos: tiene como objetivo reunir información bruta para construir un corpus paralelo que almacene frases en tsakonio junto con traducciones al griego estándar moderno.
  3. Etapa de construcción de la IA: se centra en el entrenamiento de un sistema de Modelo de Lenguaje Grande (LLM) capaz de realizar tareas de traducción y otras operaciones de procesamiento lingüístico.

Hitos

Los avances anuales se presentan en la sesión de clausura de la Escuela de Verano de Tsakonia en Leonidio. (García Chaparro, 2025)

  • 2024: Primer lanzamiento público del diccionario.
  • 2025: Presentación del modelo de traducción por IA y ampliación del diccionario al inglés y al español.

A partir de noviembre de 2025, se han completado las etapas fundacionales del proyecto, y el equipo se centra en ampliar el diccionario y mejorar el modelo de traducción. (García Chaparro, 2025)

Referencias