Desde la última gran revelación de Google, el mundo de la robótica ha estado agitado. El gigante tecnológico ha lanzado el primer modelo de visión-lenguaje-acción (VLA), conocido como Robotics Transformer o RT-2, con el potencial de redefinir drásticamente cómo los robots interactúan con el mundo real. Pronto comenzaremos a presenciar una nueva revolución en la forma en que los robots aprenden y actúan.
Con base en texto de la web, RT-2 permite a los robots aprender ideas y conceptos generales, mucho más allá de un aprendizaje restringido y específico. La idea principal aquí no es solo que un robot entienda todo acerca de una manzana, por ejemplo, sino que también pueda «reconocer una manzana en contexto, distinguirla de una bola roja, entender cómo se ve y, lo más importante, saber cómo recogerla», como Google afirma.
Para lograr esta amplitud de conocimiento, Google hubiera necesitado entrenar robots en miles de millones de puntos de datos para cada objeto, entorno, tarea y situación en el mundo físico. Esa perspectiva resulta tanto en tiempo como en costos prohibitivos para los innovadores, un problema que RT-2 promete solucionar.
RT-2 minimiza este esfuerzo arduo y mejora la capacidad de razonamiento de los robots, permitiéndoles utilizar indicaciones de cadena de pensamientos. Al incorporar sistemas como PaLM-E, un modelo de lenguaje visual, RT-2 ayuda a los robots a comprender mejor su contexto y entorno.
Este proceso elimina la complejidad innecesaria en las tareas de los robots. Imagina la diferencia entre pensar en lo que quieres hacer y luego tener que decirle esas acciones al resto de tu cuerpo para que se mueva. RT-2 se ocupa de esa complicación, permitiendo un solo modelo para razonar de manera compleja y generar acciones robóticas.
Lo verdaderamente impresionante es cómo el sistema puede transferir conceptos integrados en su lenguaje y datos de entrenamiento de la visión para dirigir las acciones del robot, incluso para tareas para las que nunca ha sido entrenado.
Por ejemplo, los sistemas robóticos convencionales requerirían un entrenamiento explícito para identificar, recoger y desechar la basura. Sin embargo, RT-2 puede transferir el conocimiento adquirido de un amplio corpus de datos web, identificar la basura y descifrar cómo desecharla, sin ningún entrenamiento explícito.
Este avance tiene implicaciones significativas. La habilidad de RT-2 para comprender la naturaleza abstracta de conceptos como la «basura» refleja un logro asombroso en la inteligencia artificial. Asegura que los robots sean capaces de adaptarse a situaciones cambiantes y aprender de manera más similar a nosotros, transfiriendo conceptos aprendidos a nuevas circunstancias.
En conclusión, RT-2 de Google marca un hito en el campo de la robótica. Esta transformación revolucionará no solo cómo los robots aprenden, sino también cómo interactúan con el mundo real. Con sus características únicas de visión-lenguaje-acción, RT-2 no solo permite a los robots razonar y aprender, sino que también les permite realizar acciones de manera más autónoma y eficiente. Sin lugar a dudas, es un gran salto hacia un futuro en el que los robots puedan interactuar con el mundo de manera más humana.
Fuente: https://www.enter.co/
Otras noticias: https://www.globalcobots.com/category/noticias/