La Inteligencia Artificial que Transforma Sonidos en Imágenes Urbanas
Un equipo de investigadores de la Universidad de Texas en Austin ha desarrollado un modelo de inteligencia artificial capaz de convertir sonidos de grabaciones de audio en imágenes de entornos urbanos. Este avance en el uso de la inteligencia artificial generativa demuestra que las máquinas pueden replicar la conexión humana entre la percepción auditiva y visual de los espacios que habitamos. La investigación, publicada en la revista *Computers, Environment and Urban Systems*, detalla cómo se entrenó un modelo de IA para generar imágenes a partir de datos acústicos y visuales recolectados en diversas calles urbanas y rurales.
Los investigadores utilizaron clips de audio de diez segundos extraídos de vídeos de YouTube, que abarcan ciudades en América del Norte, Asia y Europa. A partir de estos sonidos, se crearon pares de imágenes estáticas que fueron empleados para entrenar el modelo de IA, capaz de generar imágenes de alta resolución a partir de entradas de audio. La evaluación de la precisión de estas imágenes generadas se realizó mediante comparaciones con fotografías del mundo real, utilizando tanto análisis computacionales como la evaluación de jueces humanos. Los resultados mostraron correlaciones significativas en la proporción de elementos como el cielo y la vegetación entre las imágenes generadas y las reales, alcanzando un 80% de precisión en la identificación de las imágenes correctas relacionadas con las muestras de audio.
Este estudio no solo resalta la capacidad de la inteligencia artificial para visualizar ambientes a partir de estímulos sonoros, sino que también sugiere que puede enriquecer nuestra comprensión de las experiencias humanas en diferentes lugares. Los investigadores señalaron que la información de iluminación en las imágenes generadas podría derivarse de las variaciones en la actividad sonora. Por ejemplo, los sonidos del tráfico o el canto de insectos nocturnos pueden indicar la hora del día, lo que contribuye a un entendimiento más profundo de cómo los factores multisensoriales influyen en nuestra percepción del entorno. Este trabajo se enmarca dentro de una línea de investigación más amplia que explora la interacción entre humanos y sus entornos mediante el uso de inteligencia artificial geoespacial.