La IA victoriana que reabre el debate sobre el uso de los datos
La IA victoriana que reabre el debate sobre el uso de los datos

La IA victoriana que reabre el debate sobre el uso de los datos

Un nuevo modelo de inteligencia artificial pone en cuestión el uso de contenidos protegidos en el entrenamiento de sistemas de lenguaje. Mr. Chatterbox, un chatbot creado exclusivamente con textos de dominio público del siglo XIX, demuestra que es posible desarrollar IA sin recurrir a datos con derechos de autor. El ingeniero Trip Venturella desarrolló el modelo y lo entrenó con más de 28.000 obras de la Biblioteca Británica, publicadas entre 1837 y 1899. El sistema utiliza cerca de 2.930 millones de tokens y no incorpora ningún contenido posterior a esa fecha.

Más de 28.000 obras de la British Library

El modelo, difundido por el investigador Simon Willison, utiliza un corpus de más de 28.000 obras de la British Library, publicadas entre 1837 y 1899. En total, emplea cerca de 2.930 millones de tokens, todos ellos procedentes de textos anteriores a esa fecha.

Así es VibeVoice, la apuesta de Microsoft por la IA de voz en código abierto

Con unos 340 millones de parámetros, similar en tamaño a versiones intermedias de modelos como GPT-2, el archivo de Mr. Chatterbo ocupa apenas 2 GB y puede ejecutarse de forma local, sin necesidad de conexión a servidores externos. Sin embargo, su rendimiento está lejos de los estándares actuales. Las respuestas del modelo, aunque estilísticamente coherentes con el lenguaje victoriano, resultan poco precisas y, en muchos casos, carecen de utilidad práctica. Según Willison, interactuar con el sistema se asemeja más a una cadena de texto probabilística que a una conversación estructurada.

El reto de los datos en la inteligencia artificial

El experimento subraya la necesidad de grandes volúmenes de datos en el desarrollo de modelos de lenguaje. Estudios recientes sugieren que, para lograr un rendimiento competitivo, la cantidad de datos de entrenamiento debería multiplicar por veinte el número de parámetros del modelo, lo que en este caso implicaría más del doble del corpus utilizado.

Aun así, el proyecto demuestra que es posible entrenar sistemas funcionales utilizando únicamente contenido libre de derechos de autor, una cuestión cada vez más relevante entre las empresas tecnológicas y los creadores de contenido. Otro aspecto destacado del proyecto es su accesibilidad. Mr. Chatterbox puede instalarse y ejecutarse localmente mediante herramientas de código abierto, lo que facilita su uso por parte de desarrolladores y entusiastas sin necesidad de infraestructuras complejas.

El propio Willison subraya que este tipo de iniciativas podrían marcar el camino hacia modelos más transparentes y respetuosos con los derechos de autor, aunque reconoce que aún queda un largo recorrido para alcanzar el nivel de utilidad de los sistemas comerciales actuales.

Comparte esto: