¿Qué significa construir una IA local?
SINGAPUR – Cuando en noviembre de 2022 OpenAI hizo el lanzamiento público de ChatGPT, quedó de manifiesto un sesgo de los grandes modelos lingüísticos (LLM) de inteligencia artificial hacia los países occidentales, industrializados, ricos, educados y democráticos. Todo el mundo daba por sentado que si los LLM hablaban un idioma concreto y reflejaban una visión del mundo determinada, sería occidental. OpenAI incluso reconoció que ChatGPT tenía un sesgo occidental y anglófono.
Pero antes de que al año siguiente los competidores estadounidenses de OpenAI (Google y Anthropic) lanzaran sus propios LLM, los desarrolladores del sudeste asiático ya habían reconocido la necesidad de herramientas de IA que se comunicaran con la región en sus muchos idiomas; tarea nada fácil, ya que aquí se hablan más de 1200 lenguas.
Además, en una región donde la memoria lejana de viejas civilizaciones suele chocar con historias poscoloniales contemporáneas, el lenguaje es profundamente político. Incluso países que parecen monolingües ocultan una marcada diversidad: los camboyanos hablan casi treinta lenguas, los tailandeses, unas setenta, y los vietnamitas, más de cien. Es una región en la que las comunidades pasan de un idioma al otro en un santiamén, donde mucho se transmite en forma no verbal y donde a veces la tradición oral es más importante que las herramientas textuales para capturar los profundos matices culturales e históricos codificados en el lenguaje.
No extraña entonces que quienes intentan crear modelos de IA verdaderamente locales para una región con tantas lenguas subrepresentadas enfrenten numerosos obstáculos, desde la escasez de datos anotados de calidad y en cantidad hasta la falta de acceso a la potencia de cómputo necesaria para crear y entrenar modelos desde cero. Y en algunos casos, hay dificultades incluso más básicas, como la escasez de hablantes nativos, la falta de normas ortográficas comunes o las frecuentes interrupciones del suministro eléctrico.
Con estas limitaciones, muchos de los desarrolladores de IA de la región se han conformado con ajustar modelos ya creados por empresas establecidas extranjeras. Esto implica tomar un modelo preentrenado con grandes cantidades de datos y entrenarlo para una habilidad o tarea específica con un conjunto de datos más pequeño. Entre 2020 y 2023, en el sudeste asiático se crearon modelos lingüísticos como PhoBERT (vietnamita), IndoBERT (indonesio) y Typhoon (tailandés) a partir de otros mucho más grandes como BERT de Google, RoBERTa (más tarde LLaMA) de Meta y Mistral de Francia. Incluso las primeras versiones de SeaLLM, un conjunto de modelos optimizados para idiomas regionales y publicados por la Academia DAMO de Alibaba, se basaban en la arquitectura de Meta, Mistral y Google.
Pero en 2024, Qwen, de Alibaba Cloud, cortó el dominio occidental y ofreció al sudeste asiático un conjunto de opciones más amplio. Un estudio de la Fundación Carnegie para la Paz Internacional reveló que cinco de los veintiún modelos regionales lanzados ese año se basaban en Qwen.
Pero así como antes los desarrolladores del sudeste asiático debían tener en cuenta el sesgo occidental latente de los modelos fundacionales disponibles, ahora deben estar atentos al sesgo ideológico de las perspectivas de los modelos entrenados en China. Irónicamente, es posible que en su intento de localizar la IA y garantizar más autonomía a las comunidades del sudeste asiático, los desarrolladores se vuelvan más dependientes de actores mucho más grandes, al menos en un primer momento.
Pero los desarrolladores del sudeste asiático también han empezado a abordar este problema. Varios modelos, entre ellos SEA‑LION (para una colección de once lenguas regionales oficiales), PhoGPT (vietnamita) y MaLLaM (malayo), se han preentrenado desde cero con grandes conjuntos de datos genéricos de cada una de las lenguas en cuestión. Este paso clave en el proceso de aprendizaje automático permitirá ajustar estos modelos para tareas específicas.
Aunque SEA‑LION todavía depende de la arquitectura de Google para la fase de preentrenamiento, el uso de conjuntos de datos en lenguas regionales ha facilitado el desarrollo de modelos locales, como Sahabat‑AI, que se comunica en indonesio, sondanés, javanés, balinés y bataknés. Sahabat‑AI se autodescribe con orgullo como “un testimonio del compromiso de Indonesia con la soberanía en IA”.
Pero para representar las perspectivas autóctonas también se necesita una sólida base de conocimiento local. Una representación fiel de los puntos de vista y valores del sudeste asiático no es posible sin una comprensión de los aspectos políticos del lenguaje, de los mecanismos de búsqueda de sentido tradicionales y de la dinámica histórica.
Por ejemplo, muchas comunidades indígenas tienen una percepción diferente del tiempo y del espacio (que en el contexto moderno se consideran lineales, divisibles y medibles a los efectos de maximizar la productividad). Escritos históricos balineses que desafían los modelos de cronología convencionales pueden pasar por mitos o leyendas en términos occidentales, pero siguen influyendo en la forma en que estas comunidades dan sentido al mundo.
Los historiadores de la región han advertido que aplicar una óptica occidental a los textos locales aumenta el riesgo de malinterpretar las perspectivas indígenas. Entre los siglos XVIII y XIX, los administradores coloniales de Indonesia solían trasladar sus propias interpretaciones a las crónicas javanesas a las que tenían acceso en reproducciones traducidas. Eso llevó a que muchas observaciones sesgadas sobre los habitantes del sudeste asiático de fuentes británicas y europeas terminaran considerándose relatos históricos válidos y a que se internalizaran las categorizaciones étnicas y los estereotipos presentes en los documentos oficiales. Si estos datos se usan para entrenar IA, el resultado puede ser una profundización de los prejuicios.
Los datos no son conocimiento. El lenguaje es un hecho intrínsecamente social y político, reflejo de las experiencias relacionales de quienes lo usan, de modo que para asegurar la autonomía en la era de la IA, no basta la capacidad técnica de tener modelos que se comuniquen en lenguas locales. También hay que depurar en forma consciente los prejuicios heredados, cuestionar supuestos sobre la propia identidad y redescubrir almacenes de conocimiento autóctonos en las lenguas de la región. No podremos crear una proyección fiel de nuestras culturas a través de la tecnología si, para empezar, apenas las entendemos.
La autora
Elina Noor es investigadora sénior en el Programa para Asia de la Fundación Carnegie para la Paz Internacional.
Copyright:
Project
Syndicate,
1995 – 2025