Falcon 180B: El LLM que hace temblar a ChatGPT

Falcon 180B lidera en Hugging Face: el modelo de lenguaje más avanzado y potente para comunicación digital.

En un salto hacia el futuro, HuggingFace da la bienvenida a TII’s Falcon 180B, marcando un nuevo estándar en modelos abiertos. Con 180 mil millones de parámetros, Falcon 180B es el modelo de lenguaje más grande disponible de forma abierta, y se entrenó con una impresionante cifra de 3.5 billones de tokens usando el dataset RefinedWeb de TII.

Rendimiento y Competencia

Falcon 180B no es solo grande, sino también potente. Sus capacidades rivalizan con modelos propietarios como el PaLM-2 y, según las pruebas, se sitúa al mismo nivel que el PaLM-2 Large. Esto coloca a Falcon 180B entre los modelos de lenguaje más avanzados conocidos públicamente.

Dentro del paraguas tecnológico, Falcon 180B es una evolución de Falcon 40B, integrando innovaciones como la atención multiquery para una escalabilidad mejorada. Para su entrenamiento, se utilizó la colosal cifra de ~7,000,000 horas de GPU en Amazon SageMaker, haciéndolo 2.5 veces más grande que el Llama 2.

Detalles Técnicos y Recomendaciones

El modelo fue nutrido principalmente con datos web del RefinedWeb (~85%), complementado con información curada que incluye conversaciones y documentos técnicos. Es importante resaltar que aquellos que deseen un uso comercial de Falcon 180b deben ser cautelosos, ya que tiene condiciones muy restrictivas.

Comparativamente, Falcon 180B ha superado modelos reconocidos como el Llama 2 70B y el GPT-3.5 de OpenAI en varias tareas. Además, con una puntuación de 68.74 en la tabla de liderazgo de Hugging Face, supera al LLaMA 2 (67.35).

Los desarrolladores y entusiastas pueden interactuar y experimentar con Falcon 180B directamente en el Hugging Face Hub y en el espacio Falcon Chat Demo. Si estás considerando sumergirte en su arquitectura y potencial, es fundamental tener en cuenta los requisitos de hardware; Falcon 180B demanda configuraciones poderosas para su operación.

Usabilidad, Eficiencia y Reconocimiento Comunitario

Para los usuarios, el modelo básico no tiene un formato de conversación establecido, mientras que la versión de chat sigue una estructura de conversación simple. Con la nueva actualización de Transformers 4.33, es posible aprovechar Falcon 180B con todas las herramientas del ecosistema HF.

En cuanto a rendimiento, las versiones cuantizadas de 8 bits y 4 bits de Falcon 180B muestran casi ninguna diferencia en evaluación respecto a la referencia bfloat16. Esto es una gran noticia para quienes buscan eficiencia en la inferencia.

Este avance colosal no habría sido posible sin la contribución de varios miembros de la comunidad, desde la evaluación y soporte de inferencia hasta la integración en transformers. HuggingFace agradece a todos los involucrados y espera que la comunidad continúe desarrollando y mejorando este revolucionario modelo.

Para seguir la actualidad de las noticias más interesantes sobre robótica colaborativa e inteligencia artificial, no dudes en visitar nuestras Últimas noticias.

Dolores Abuin

Abogada especializada en Inteligencia Artificial Generativa, LLMS y ética de la IA. Participa en la elaboración del Código de Buenas Prácticas de la Comisión Europea y la Oficina Europea de IA, que regulará el uso de modelos de IA de propósito general en la UE. Miembro de OdiseIA en el área robots-persona.

Comparte esta noticia si crees que puede ser interesante. Gracias por leernos.