En un paso adelante hacia una comunicación más fluida entre seres humanos y máquinas, DeepMind ha presentado su modelo RT-2. Este nuevo sistema permite el control de robots a través de instrucciones en lenguaje natural y visionado de imágenes, combinando textos, imágenes y coordenadas en un solo modelo. A continuación, se presenta un análisis profundo de esta tecnología y su potencial en la industria robótica.
RT-2: Uniendo Visión, Lenguaje y Coordenadas
El Modelo
El RT-2 (Robotics Transformer versión 2) no es solo un modelo de lenguaje grande. Va más allá al integrar no solo imágenes y texto, sino también datos de coordenadas de los movimientos de un robot en el espacio. Esta fusión permite que, una vez entrenado, el modelo pueda generar tanto un plan de acción como las coordenadas necesarias para llevar a cabo un comando, utilizando grados de libertad (6-DoF) en las coordenadas espaciales.
Instrucciones en Tiempo Real
La clave de RT-2 es su capacidad para recibir instrucciones en tiempo real. Los datos grabados por el robot se convierten en una fuente para nuevas acciones, permitiendo que las instrucciones sean tan simples como conversar con un chatbot, como ChatGPT.
Codificación y Transformación de Acciones
Transformación de Acciones
El modelo RT-2 codifica las acciones del robot como coordenadas en el espacio. Estas acciones se integran durante el entrenamiento junto con los tokens de palabras e imágenes. Las coordenadas del robot se convierten en otra parte de una frase, facilitando la interacción.
Una Mezcla Innovadora
La innovación aquí reside en la combinación de física de robots, programación de bajo nivel y redes neuronales de imágenes y lenguaje en una mezcla unificada. El programa RT se basa en dos esfuerzos anteriores de Google, PaLI-X y PaLM-E, y los lleva un paso más allá, generando no solo el plan de acción sino también las coordenadas de movimiento en el espacio.
Versatilidad y Eficiencia de RT-2
Sucesor Mejorado
RT-2 es sucesor de RT-1 y se basa en modelos de lenguaje grandes como PaLI-X y PaLM-E. Esto significa que tiene muchos más parámetros neurales, lo que generalmente hace que los programas sean más eficientes.
Pruebas y Predicciones
Una vez entrenado, el RT-2 se sometió a una serie de pruebas, demostrando su habilidad para interpretar comandos en lenguaje natural junto con una imagen, para ejecutar acciones específicas. Esto incluye tareas complejas que involucran razonamiento, comprensión de símbolos y reconocimiento humano.
Desafíos y Perspectivas Futuras
A pesar de los avances, el coste computacional de estos modelos es alto. El artículo menciona que la inferencia en tiempo real puede ser un cuello de botella significativo, y sugiere que una dirección emocionante para la investigación futura sería explorar técnicas que permitan que estos modelos funcionen a tasas más altas o en hardware de menor costo.
El modelo RT-2 de DeepMind abre un camino prometedor hacia la comunicación más intuitiva y accesible entre humanos y robots. Aunque aún hay desafíos a superar, el potencial de esta tecnología es evidente. Podemos esperar que la integración de la visión, el lenguaje y la acción en la robótica conduzca a aplicaciones más amplias y significativas, fortaleciendo nuestra conexión con las máquinas y avanzando hacia una colaboración más efectiva.
La siguiente información se aplica a cada unidad del paquete Ahorre hasta 80% de tinta con botellas de reemplazo de bajo costo Ecotanks tiene hasta 2 años de tinta en la caja Sin frustración con la impresión sin cartuchos Dispositivos compatibles: et... read more
HP 302 F6U66AE, Negro, Cartucho Original, de 190 páginas, Para impresoras HP Deskjet serie 1110, 2100, 3600; HP ENVY 4500; HP OfficeJet 3800, 4600 Por solo 19,54 €19,38 €
Cartucho con tecnología de impresión por inyección térmica de tinta compatible con impresoras HP Deskjet serie 1110, 2100, 3600; hP ENVY 4500 y HP OfficeJet 3800 y 4600 Adecuado para imprimir documentos y fotografías de alta calidad y con resultados ... read more
2023 Auriculares Inalambricos Bluetooth 5.3, Half-In-Ear, 48 Horas Estéreo HiFi con Reducción de Ruido, IP7, Comodidad Ligera, Carga Rápida USB-C Por solo 32,99 €19,94 €
2023 Nuevo Bluetooth: Con Bluetooth 5.3 y transmisión de dos canales, los auriculares inalambricos Bluetooth le brindan una experiencia de audio incomparable con una velocidad de transmisión más rápida, una mayor estabilidad de conexión y un mayor al... read more
【8GB DDR4 256GB SSD】SGIN portátil vienen con 8GB DDR4, así como 256GB SSD para ningún retraso en el uso y funcionamiento. Soporta tarjeta SSD (M.2 SATA) y Soporta expansión de tarjeta TF de 512GB, ssd se puede reemplazar hasta 1024GB SSD, lo que le p... read more
Disfruta como en el cine: imágenes vibrantes en calidad Ultra HD 4K, compatible con Dolby Vision, HDR y HDR10+. Sonido de calidad con Dolby Atmos: con sistemas de sonido compatibles, siente cómo cobran vida las escenas gracias al audio envolvente Dol... read more
✅【INIU: SAFE Fast Charge Pro】Experimente la carga más segura con más de 38 millones de usuarios globales. En INIU, usamos solo materiales de la más alta calidad, por lo que tenemos la confianza de brindar una garantía de 3 años líder en la industria.... read more
VELOCIDAD ULTRA RÁPIDA - AC1300 (867 Mbps en la banda de 5 GHz o 400 Mbps en la banda de 2.4 GHz) Wi-Fi banda dual asegura que todos tus equipos funcionen su velocidad máxima TECNOLOGÍA MU-MIMO - Mejora el rendimiento y la eficiencia de toda la red c... read more
Soporte de TV Pared Articulado Inclinable Y Giratorio – Soporte De TV para Pantallas De 13-42” TV – MAX VESA 200x200mm, para Soportar 20kg Por solo 32,99 €19,99 €
Universal Adecuado Para Todos Los Televisores: El soporte de pared se adapta a televisores planos y curvos de 13 a 42 pulgadas. Nuestra placa frontal compatible con VESA (patrón de orificios de montaje) se adapta a 75x75 / 100X100 / 100x200 / 200x100... read more
La unidades de DVD externa es alimentada por el puerto USB Plug and play, sin necesidad de instalar drivers Solo conéctelo en el puerto USB y en la unidad de DVD El cable de transmisión de datos integrado de alta estabilidad te facilitará su instalac... read more
1. Attention - No OEM: Estos cartuchos de tinta remanufacturados no se pueden usar en el modelo de impresora H P+ 4110e 4120e 6020e 6022e 6420e 6430e y así sucesivamente, que tienen una "e" al nombre del modelo. Estas impresoras del modelo H P+ solo ... read more
CALIDAD COMPROBADA: El diseño de los envases ha cambiado en estos años. La fórmula de la composición se ha mantenido sin cambios, las pastas MX han representado siempre un alto rendimiento y calidad EXCELENTE RENDIMIENTO: La pasta térmica ARCTIC MX-4... read more
【PROCESADOR DE ÚLTIMA GENERACIÓN】Portátil Aocwei A6 instalado con Win 11 y equipado con el último y potente procesadorIntelCeleron N5095 Quad-Core con una frecuencia turbo de 2,0 GHz (admite hasta 2,9 Ghz). Ejecute varias aplicaciones y pestañas de... read more
【Decodificación 4K&HDR10, Asombroso Brillo de 700 ANSI】Proyector 4K supporto utiliza un panel LCD de primera calidad y tecnología de cono de luz optimizada para ofrecer imágenes claras y nítidas. Gracias a la compatibilidad con decodificación 4K y HD... read more
SPARIN Protector de Pantalla para iPhone 15 Pro y iPhone 15, Cristal Templado de 6,1 Pulgadas Cobertura Completo 9H Dureza, HD Transparente, 3 Pack Por solo 8,99 €
Especialmente diseñado y cortado con precisión para iPhone 15 y iPhone 15 Pro 5G, protege completamente su teléfono, no es compatible con otros modelos de moviles Fácil instalación: con el cola de escape, puedes instalar rápidamente el cristal templa... read more
Ventajas del producto: el multipack de cartuchos de impresora compatibles para303XL produce colores brillantes y efectos de impresión negros nítidos Contenido:2er-Pack Remanufacturado tinta compatibles para HP 303 XL tinta multipack(1 Negro,1 Tricolo... read more
Alto desempenho: com a tecnologia de processador AMD Ryzen 5 5600H com AMD Radeon Graphics (1800 MHz), 6 núcleos/12 cabos, cache L2 de 3 MB, cache L3 total de 16 MB, até 4,2 GHz. MINISFORUM UM560XT pode lidar facilmente com o uso multitarefas e multi... read more
FUNYET Mini PC Windows 11 Pro, 16GB DDR4 RAM 512GB SSD Mini Desktop Computer N95 Procesador, Quad Core (hasta 3.4Ghz) Mini Computer 4K, Soporte RJ45 2.4G/ 5.0G WiFi Gigabit Ethernet USB3.0 DP DC HDMI Por solo 189,99 €
🚀【Procesador 2023 In Alder Lake N95 TDP15W más reciente】 La mini computadora FUNYET está equipada con el último procesador N95, con una frecuencia principal de hasta 3.4GHz, una potencia nominal de 15W y un caché de 6MB. En comparación con n5105/n509... read more
Beelink MINI-S12 Pro Mini PC, procesadorIntel Alder Lake-N100 de 12.ª generación (hasta 3,40 GHz), 16 GB de RAM 500 GB SSD Business Desktop Computer, Dual HDMI/WiFi 6/BT5.2 Por solo 299,00 €172,82 €
【Latest processor in the Alder Lake-N100 series】Beelink MINI-S12 Pro is equipped with the latest 12th generation Intel Alder Lake N100 processor (4C/4T, up to 3.4 GHz) 15 W low power consumption, compared to the N5095/N5100/N5105, The performance of ... read more