Innovación tecnológica en IA
29/01/2026 | 15:30
Redacción Cadena 3
Google DeepMind lanzó el acceso a Project Genie, una herramienta de inteligencia artificial diseñada para crear mundos interactivos a partir de textos o imágenes. A partir del jueves, los suscriptores de Google AI Ultra en Estados Unidos pueden explorar este prototipo de investigación experimental, que combina el modelo de mundo más reciente de Google, Genie 3, su modelo de generación de imágenes Nano Banana Pro y Gemini.
Este lanzamiento se produce cinco meses después de la vista previa de investigación de Genie 3 y forma parte de un esfuerzo más amplio para recopilar comentarios de los usuarios y datos de entrenamiento mientras DeepMind se esfuerza por desarrollar modelos de mundo más capaces. Los modelos de mundo son sistemas de inteligencia artificial que generan una representación interna de un entorno y pueden utilizarse para predecir resultados futuros y planificar acciones. Muchos líderes en inteligencia artificial, incluidos los de DeepMind, creen que los modelos de mundo son un paso crucial para alcanzar la inteligencia general artificial (AGI).
La liberación de Project Genie por parte de DeepMind coincide con el aumento de la competencia en el desarrollo de modelos de mundo. El año pasado, Fei-Fei Li lanzó su primer producto comercial, Marble, a través de World Labs. También, Runway, una startup de generación de videos AI, lanzó recientemente un modelo de mundo. Además, Yann LeCun, ex científico jefe de Meta, está trabajando en su propia startup, AMI Labs, que se centrará en el desarrollo de modelos de mundo.
"Es emocionante poder dar acceso a más personas y recibir sus comentarios", comentó Shlomi Fruchter, director de investigación en DeepMind, durante una entrevista con TechCrunch. Los investigadores de DeepMind señalaron que la herramienta es experimental y puede ser inconsistente, generando mundos jugables en algunas ocasiones, mientras que en otras produce resultados desconcertantes.
El uso de Project Genie comienza con un "boceto del mundo", donde se proporcionan textos que describen tanto el entorno como un personaje principal, que luego se puede controlar en una vista en primera o tercera persona. Nano Banana Pro genera una imagen basada en estos textos, que puede modificarse antes de que Genie use la imagen como base para crear un mundo interactivo. Sin embargo, estas modificaciones no siempre funcionan como se esperaba.
Los usuarios también pueden usar fotos reales como base para que el modelo construya un mundo, aunque este proceso también presenta resultados variables. Una vez que se está satisfecho con la imagen, Project Genie genera un mundo explorable en cuestión de segundos. Los usuarios pueden mezclar mundos existentes para crear nuevas interpretaciones o explorar mundos curados en la galería.
Sin embargo, DeepMind ha limitado el tiempo de generación y navegación del mundo a 60 segundos debido a restricciones de presupuesto y computación. Fruchter explicó que esta limitación busca permitir el acceso a más usuarios, dado que cada sesión requiere una cantidad considerable de computación dedicada.
"La razón por la que lo limitamos a 60 segundos es porque queríamos llevarlo a más usuarios", dijo Fruchter. "Cuando lo usas, hay un chip que es solo tuyo y que se dedica a tu sesión". Extender este tiempo podría disminuir el valor del testing, ya que la interacción con los entornos generados es limitada en su dinamismo.
Al utilizar el modelo, se notó que las medidas de seguridad estaban activas, impidiendo la generación de contenido que pudiera ser considerado inapropiado o que infrinja derechos de autor, como se evidenció en el caso de Disney, que envió una carta de cese y desistimiento a Google el año pasado. A pesar de estas limitaciones, la demostración fue impactante. Se generó un mundo que recreaba un castillo de nubes hecho de malvaviscos, con un río de chocolate, cumpliendo con las expectativas de la infancia del usuario.
Sin embargo, los modelos mostraron dificultades al crear mundos basados en prompts fotorealistas, a menudo resultando en entornos que se asemejaban más a un videojuego que a una representación realista. Además, el modelo no siempre respondía bien a las fotos reales, generando mundos que, aunque contenían algunos elementos similares, no lograban la fidelidad deseada.
Project Genie también presenta problemas de interacción, donde los personajes a veces atraviesan paredes u otros objetos sólidos. A pesar de estos inconvenientes, DeepMind está trabajando para mejorar la capacidad de interacción y realismo de los mundos generados, buscando dar a los usuarios más control sobre sus acciones y entornos.
"No lo consideramos un producto final que la gente pueda usar todos los días, pero ya hay destellos de algo interesante y único que no se puede hacer de otra manera", concluyó Fruchter.
¿Qué es Project Genie?
Es una herramienta de inteligencia artificial de Google que permite crear mundos interactivos a partir de textos o imágenes.
¿Quién desarrolló Project Genie?
Fue desarrollado por Google DeepMind.
¿Cuándo se lanzó?
El acceso comenzó el 29 de enero de 2026 para suscriptores de Google AI Ultra.
¿Dónde se puede acceder?
Está disponible para suscriptores en Estados Unidos.
¿Por qué es importante?
Representa un avance en el desarrollo de modelos de mundo y la búsqueda de la inteligencia general artificial (AGI).
Te puede Interesar
Actualidad tecnológica en EE.UU.
Google Chrome presentó nuevas características integradas con Gemini, que permitirán a los usuarios realizar tareas autónomas. Esta actualización está disponible para suscriptores de AI Pro y Ultra en EE.UU.
Expansión de Google Photos
La función de edición en Google Photos permite a los usuarios modificar imágenes mediante comandos en lenguaje natural. Ahora está disponible en India, Australia y Japón, tras su lanzamiento inicial en EE. UU.
Informe de Common Sense Media
Un nuevo informe de Common Sense Media señala que Grok, el chatbot de xAI, no identifica adecuadamente a los usuarios menores de 18 años y presenta fallas graves en la seguridad infantil.
Startup de IA en el sector tecnológico
Ricursive Intelligence, enfocada en diseñar y mejorar chips de IA, obtuvo $300 millones en su ronda de financiamiento, alcanzando una valoración de $4 mil millones en solo dos meses desde su lanzamiento.