La inteligencia artificial crea imágenes de lo que la gente ve analizando escáneres cerebrales

Imágenes cerebrales de IA

Las imágenes de la fila inferior se recrearon a partir de escáneres cerebrales de una persona que miraba a las de la fila superior.

Yu Takagi y Shinji Nishimoto / Universidad de Osaka, Japón

La popular modificación de AI de texto a imagen hace posible convertir señales cerebrales directamente en imágenes. El sistema requiere una amplia capacitación utilizando equipos de imágenes voluminosos y costosos, sin embargo, la lectura de la mente todos los días está lejos de ser el caso.

Varios grupos de investigación generaron previamente imágenes a partir de señales cerebrales utilizando modelos de IA de gran consumo de energía que requieren un ajuste fino de millones de parámetros.

Ahora, Shinji Nishimoto y Yu Takagi de la Universidad de Osaka en Japón han desarrollado un enfoque mucho más simple utilizando Stable Diffusion, un generador de texto a imagen lanzado por Stability AI en agosto de 2022. Su nuevo método incluye miles, no millones, de parámetros.

Cuando se usa normalmente, Stable Diffusion convierte un mensaje de texto en una imagen comenzando con un garabato visual aleatorio y ajustándolo para producir imágenes que se parecen a las de los datos de entrenamiento que contienen etiquetas de texto similares.

Nishimoto y Takagi construyeron dos modelos adicionales para hacer que la IA funcione con señales cerebrales. La pareja usó datos de cuatro personas que participaron en un estudio anterior que usó imágenes de resonancia magnética funcional (fMRI) para escanear sus cerebros mientras veían 10,000 imágenes distintas de paisajes, objetos y personas.

Usando alrededor del 90 por ciento de los datos de imágenes del cerebro, la pareja entrenó a un modelo para hacer conexiones entre los datos de fMRI del área del cerebro que procesa las señales visuales, llamada corteza visual temprana, y las imágenes que las personas estaban viendo.

Usaron el mismo conjunto de datos para entrenar un segundo modelo para hacer conexiones entre las descripciones textuales de las imágenes, realizadas por cinco anotadores en el estudio anterior, y los datos de fMRI de la región del cerebro que procesa el significado de las imágenes, llamada corteza visual ventral. .

Después del entrenamiento, estos dos modelos, que debían personalizarse para cada individuo, podían traducir los datos de imágenes cerebrales en formas que se alimentaban directamente al modelo de difusión estable. Luego podría reconstruir alrededor de 1,000 de las imágenes que las personas vieron con una precisión de hasta el 80 por ciento, sin ser entrenado en las imágenes originales. Este nivel de precisión es similar al alcanzado previamente en un estudio que analizó los mismos datos utilizando un enfoque más tedioso.

“No podía creer lo que veía, fui al baño y me miré en el espejo, luego volví a mi escritorio para mirarme de nuevo”, dice Takagi.

Sin embargo, el estudio solo probó el enfoque en cuatro personas, y la inteligencia artificial que lee la mente funciona mejor para algunas personas que para otras, dice Nishimoto.

Es más, debido a que los modelos deben personalizarse para el cerebro de cada individuo, este enfoque requiere largas sesiones de escaneo cerebral y voluminosas máquinas de IRMf, dice Ciccone Lin, de la Universidad de California. “No es práctico para el uso diario en absoluto”, dice ella.

En el futuro, dice Lin, versiones más prácticas de este enfoque podrían permitir a las personas crear obras de arte o alterar imágenes con su imaginación, o agregar nuevos elementos al juego.

Hilos: