Investigación en Liverpool

Un modelo informático imita la percepción audiovisual humana

04/11/2025 | 20:19

Investigadores de la Universidad de Liverpool desarrollaron un modelo que combina visión y sonido, similar a la percepción humana. Este avance podría revolucionar la inteligencia artificial y la percepción de máquinas.

Redacción Cadena 3

Un nuevo modelo informático desarrollado en la Universidad de Liverpool logró combinar la vista y el sonido de una manera que se asemeja a cómo lo hacen los humanos. Este modelo, inspirado en la biología, podría tener aplicaciones significativas en inteligencia artificial y percepción de máquinas.

El modelo se basa en una función cerebral inicialmente descubierta en insectos, que les ayuda a detectar movimientos. El Dr. Cesare Parise, profesor de psicología, adaptó esta idea para crear un sistema capaz de procesar señales audiovisuales reales, como videos y sonidos, en lugar de depender de parámetros abstractos utilizados en modelos anteriores. Su trabajo fue publicado en la revista eLife.

Cuando observamos a alguien hablar, nuestros cerebros emparejan automáticamente lo que vemos con lo que escuchamos. Esto puede dar lugar a ilusiones, como el efecto McGurk, donde sonidos y movimientos labiales desincronizados crean una nueva percepción, o la ilusión del ventrílocuo, donde una voz parece provenir de una marioneta en lugar del intérprete. Este trabajo reciente se pregunta: ¿cómo sabe el cerebro cuándo el sonido y la visión coinciden?

Modelos anteriores intentaron explicar esto, pero estaban limitados porque no trabajaban directamente con señales audiovisuales reales. El Dr. Parise, del Instituto de Salud Poblacional de la Universidad de Liverpool, explicó: "A pesar de décadas de investigación en percepción audiovisual, aún no teníamos un modelo que pudiera resolver una tarea tan simple como tomar un video como entrada y determinar si el audio se percibiría como sincronizado".

Esta limitación revela un problema más profundo: sin ser computable por estímulos, los modelos perceptuales pueden capturar muchos aspectos de la percepción en teoría, pero no pueden realizar ni siquiera la prueba más sencilla del mundo real.

El nuevo modelo del Dr. Parise aborda un desafío de larga data en la integración sensorial. Se basa en trabajos anteriores de Parise y Marc Ernst (Universidad de Bielefeld, Alemania), quienes introdujeron el principio de detección de correlaciones, una posible explicación de cómo el cerebro combina señales de diferentes sentidos.

Este trabajo llevó al desarrollo del Detector de Correlación Multisensorial (MCD), un modelo que podría imitar las respuestas humanas a patrones audiovisuales simples como destellos y clics. Posteriormente, mejoraron el modelo para centrarse en cambios breves en la entrada, que son clave para cómo integramos la vista y el sonido.

En el estudio actual, Parise simuló un grupo de estos detectores dispuestos en una cuadrícula a través del espacio visual y auditivo. Esta configuración permitió al modelo manejar estímulos complejos del mundo real. Reprodujo con éxito resultados de 69 experimentos bien conocidos que involucraban humanos, monos y ratas.

El Dr. Parise añadió: "Esto representa la simulación a mayor escala jamás realizada en el campo. Si bien otros modelos han sido probados exhaustivamente en el pasado, ninguno ha sido evaluado contra tantos conjuntos de datos en un solo estudio".

El modelo coincidió en comportamiento entre especies y superó al modelo de Inferencia Causal Bayesiana líder, utilizando la misma cantidad de parámetros ajustables. También predijo dónde mirarían las personas mientras veían películas audiovisuales, actuando como un "modelo de saliencia" ligero.

El Dr. Parise cree que el modelo podría ser útil más allá de la neurociencia. "La evolución ya ha resuelto el problema de alinear sonido y visión con cálculos simples y de propósito general que se escalan a través de especies y contextos. El paso crucial aquí es la computabilidad del estímulo: dado que el modelo trabaja directamente con señales audiovisuales en bruto, puede aplicarse a cualquier material del mundo real".

Agregó: "Los sistemas de IA de hoy todavía luchan por combinar información multimodal de manera confiable, y los modelos de saliencia audiovisual dependen de redes grandes y pesadas en parámetros entrenadas en vastos conjuntos de datos etiquetados. En contraste, la red MCD es ligera, eficiente y no requiere entrenamiento. Esto convierte al modelo en un candidato poderoso para aplicaciones de próxima generación".

El Dr. Parise concluyó: "Lo que comenzó como un modelo de visión del movimiento en insectos ahora explica cómo los cerebros, humanos o no, integran sonido y visión en una extraordinaria variedad de contextos. Desde predecir ilusiones como los efectos McGurk y ventrílocuo hasta inferir causalidad y generar mapas de saliencia audiovisual dinámicos, ofrece un nuevo plano tanto para la investigación en neurociencia como en inteligencia artificial".

Lectura rápida

¿Qué es el nuevo modelo informático?
Es un sistema que combina visión y sonido de manera similar a como lo hacen los humanos, desarrollado en la Universidad de Liverpool.

¿Quién lo desarrolló?
El modelo fue creado por el Dr. Cesare Parise, profesor de psicología en la Universidad de Liverpool.

¿Cuándo fue publicado el estudio?
El estudio fue publicado el 4 de noviembre de 2025 en la revista eLife.

¿Cómo funciona el modelo?
El modelo procesa señales audiovisuales reales y reproduce resultados de experimentos previos, superando limitaciones de modelos anteriores.

¿Por qué es importante este modelo?
Ofrece un enfoque eficiente para la integración sensorial y podría tener aplicaciones en inteligencia artificial y neurociencia.

Te puede Interesar

Iniciativa en Alemania

Nvidia y Deutsche Telekom lanzan un centro industrial de IA de mil millones de euros

El nuevo hub de inteligencia artificial en Alemania busca potenciar la capacidad de las empresas europeas en el uso de esta tecnología, priorizando la soberanía de datos.

Desarrollo legal en el Reino Unido

Getty Images pierde gran parte de la demanda contra firma británica de IA

Getty Images no logró demostrar que su contenido protegido se utilizara sin autorización por parte de Stability AI. La corte de Londres falló en favor de la firma británica en gran parte de la demanda.