Llama AI sigue evolucionando y pone a Meta en la cima del sector

Así es Llama 3.2, la nueva versión IA de Meta que entiende gráficos e imágenes

3 octubre, 2024 5 min read

Meta ha vuelto a revolucionar el sector de la IA con Llama 3.2, la nueva versión de sus modelos Llama. Con esta nueva actualización, Meta promete revolucionar la inteligencia artificial en el borde o Edge AI, para dispositivos de baja potencia y que funciona en tiempo real) a través de modelos abiertos y personalizables. La Edge AI implementa algoritmos y modelos de IA en dispositivos de internet de las cosas (IoT), lo que permite no depender de infraestructuras de nube.

IA de Meta Llama 3.2

Con Llama 3.2, Meta da un paso adelante en su camino hacia una IA abierta. Recordemos que su primera versión, Llama 1, era un modelo bastante sencillo, pero con una calidad respetable para ser un modelo de IA diseñada y distribuida como software libre. Precisamente, esto fue lo que permitió que una gran comunidad tomará el modelo y generase diversos modelos derivados, como Alpaca.

Pero no fue hasta la llegada de Llama 2.0, cuando Meta realmente comenzó la competencia contra los gigantes OpenAI y Google. Llama 2.0 fue un salto de calidad y rendimiento sin precedente, compitiendo con GPT-3.5-Turbo y Gemini 1.0 Flash. Ahora, con sus modelos Llama 3 (siendo 3.0, 3.1 y 3.2, los modelos lanzados en esta iteración), Meta ha cambiado totalmente las reglas.

Llama 3.2 es un modelo que además de buscar alcanzar el Edge AI, pretende integrarse en todo dispositivo posible dando capacidades de generación de texto y visión útiles para todos. No solo busca ofrecer dicho acceso, sino que quiere hacerlo con la mayor calidad posible. De hecho, en las pruebas este nuevo modelo supera a Claude-3 Haiku y GPT-4o-mini, en casi todas las pruebas.

Llama AI busca conquistar el mundo

Llama 3.2 introduce modelos de visión (modelos de IA «capaces de ver») de tamaño pequeño y mediano (11B y 90B) y modelos ligeros solo de texto (1B y 3B) diseñados para funcionar en dispositivos móviles y de borde (ej: dispositivos de baja potencia o IoT). Estas innovaciones permiten a los desarrolladores implementar aplicaciones que requieren procesamiento local, lo que aumenta la privacidad y reduce la latencia.

Razonamiento visual

Sin duda, uno de los mayores avances son los modelos de visión de Llama 3.2. Se trata de modelos capaces de realizar tareas complejas de razonamiento visual, como la comprensión de documentos que incluyen gráficos y la creación de subtítulos para imágenes. Por ejemplo, pueden responder preguntas sobre gráficos de ventas o mapas, integrando el análisis visual con el procesamiento de lenguaje natural.

Los modelos de visión de Llama 3.2 tienen una nueva arquitectura que incluye capas de atención cruzada, permitiendo que las representaciones de imágenes se integren en el modelo de lenguaje. Esto se logró mediante el entrenamiento en pares de datos de texto e imagen, lo que facilita una comprensión más profunda de ambos tipos de datos.

IMPACTO DE LA IA EN LA PROFESIÓN JURÍDICA

Modelos ligeros para Edge AI

El segundo mayor avance en el nuevo modelo Llama 3.2 lo vemos en los modelos ligeros (del tipo 1B y 3B). Estos modelos son ideales para tareas de generación de texto y permiten la ejecución de aplicaciones personalizadas en dispositivos con recursos limitados. Su capacidad para operar localmente (sin necesidad de conexión a internet) significa que los datos sensibles no necesitan ser enviados a la nube, lo que mejora la privacidad del usuario.

Una de las características más destacadas de los modelos 1B y 3B es su soporte para una longitud de contexto de hasta 128K tokens (unas 96.000 palabras). Esto es particularmente útil para aplicaciones que requieren un análisis extenso de texto, como la reescritura y el seguimiento de instrucciones, lo que los convierte en una opción de vanguardia para el uso en dispositivos.

Pruning y distillation para IA

Sin embargo, quizá la mayor ganancia de Meta con estos modelos es su conocimiento en la aplicación de técnicas como el pruning (poda) y distillation (destilación) para mejorar el rendimiento de sus modelos, pero manteniendo en todo momento un tamaño reducido. Gracias a estas técnicas, Meta es capaz de generar modelos pequeños, pero de gran calidad.

**Proceso de destilación y poda de modelos de IA**

¿Resultado? Su modelo 1B pesa poco más de 2,4 GB de datos en su modo FP32 (la máxima calidad posible). Así, es posible integrar esta IA en un dispositivo móvil con mucha facilidad, pero se puede reducir su tamaño aún más usando cuantización. La cuantización es una técnica para reducir la precisión de los nodos neuronales del modelo.

LOS «BLOCKCHAIN AWARDS DE ALASTRIA 2024» SE ENTREGARÁN EL 17 DE OCTUBRE EN MADRID

El mejor ejemplo de esto lo podemos ver en HuggingFace, donde ya hay modelos Llama-3.2 1B Q4 (cuantización Q4) que pesan poco más de 800 MB, una reducción de casi el 70% en el peso original del modelo, sin perder calidad en sus respuestas, y acercando así a modelos menos potentes para que puedan integrarse con IA.

Distribuciones de Llama Stack

Finalmente, Llama 3.2 presenta las primeras distribuciones oficiales de Llama Stack, que simplifican el trabajo de los desarrolladores al permitir la implementación de modelos en diversas plataformas, ya sea en la nube, en dispositivos locales o en instalaciones on-premise. Las características clave incluyen:

Interfaz de Línea de Comando (CLI) para construir y ejecutar distribuciones.
Contenedores Docker para facilitar la implementación. Esto está pensado para que los desarrolladores de aplicación puedan usar un modelo IA de forma local y con total control, haciendo unos pocos clics para ello.
Distribuciones en la nube a través de socios como AWS y Databricks.

Enfoque en la Seguridad y Responsabilidad

Meta también ha enfatizado la importancia de la seguridad y la responsabilidad en el uso de la IA. Llama 3.2 incluye actualizaciones significativas en sus sistemas de seguridad, como:

CHAINLINK Y TAURUS (DEUTSCHE BANK) SE UNEN PARA ACELERAR LA TOKENIZACIÓN EN BANCOS

Llama Guard 3: Un sistema diseñado para filtrar entradas y salidas de texto e imagen, asegurando que las interacciones sean seguras y apropiadas. Esto resulta especialmente útil, por ejemplo, si estás diseñando una aplicación de uso familiar, teniendo la seguridad de que su uso no dará sorpresas con contenido no deseado.
Optimización de modelos de guardia: Los modelos de Llama Guard han sido optimizados para reducir costes de implementación, haciéndolos más accesibles para los desarrolladores.

Conclusiones

Llama 3.2 no solo mejora las capacidades de los modelos de IA, sino que también promueve un enfoque abierto y colaborativo que beneficia a la comunidad de desarrolladores. Con un enfoque en la personalización, la privacidad y la seguridad, esta actualización posiciona a Llama como líder en la innovación de la IA. La disponibilidad de modelos para descargar en plataformas como llama.com y Hugging Face, junto con el respaldo de una amplia red de socios, asegura que los desarrolladores tengan acceso a herramientas poderosas para crear aplicaciones innovadoras.

Meta continúa demostrando su compromiso con la apertura y la colaboración, lo que no solo impulsa la innovación, sino que también democratiza el acceso a tecnologías avanzadas de IA. Con Llama 3.2, la comunidad tiene la oportunidad de explorar nuevas posibilidades en el campo de la inteligencia artificial, tanto en el borde como en la nube.

Comparte esto: