banner

Noticias

Oct 16, 2023

Los transformadores de visión han tomado por asalto el campo de la visión artificial, pero ¿qué aprenden los transformadores de visión?

Los transformadores de visión (ViT) son un tipo de arquitectura de red neuronal que ha alcanzado una gran popularidad para tareas de visión como la clasificación de imágenes, la segmentación semántica y la detección de objetos. La principal diferencia entre los transformadores de visión y los originales fue el reemplazo de los tokens discretos de texto con valores de píxeles continuos extraídos de parches de imagen. ViTs extrae características de la imagen atendiendo a diferentes regiones de la misma y combinándolas para hacer una predicción. Sin embargo, a pesar del uso generalizado reciente, se sabe poco sobre los sesgos inductivos o las características que los ViT tienden a aprender. Si bien las visualizaciones de funciones y las reconstrucciones de imágenes han tenido éxito en la comprensión del funcionamiento de las redes neuronales convolucionales (CNN), estos métodos no han tenido tanto éxito en la comprensión de las ViT, que son difíciles de visualizar.

El último trabajo de un grupo de investigadores de la Universidad de Maryland-College Park y la Universidad de Nueva York amplía la literatura sobre ViT con un estudio en profundidad sobre su comportamiento y sus mecanismos de procesamiento interno. Los autores establecieron un marco de visualización para sintetizar imágenes que activan al máximo las neuronas en el modelo ViT. En particular, el método implicó tomar pasos de gradiente para maximizar las activaciones de características comenzando con ruido aleatorio y aplicando varias técnicas de regularización, como penalizar la variación total y usar ensamblaje de aumento, para mejorar la calidad de las imágenes generadas.

El análisis encontró que los tokens de parche en ViT conservan la información espacial en todas las capas, excepto el último bloque de atención, que aprende una operación de combinación de tokens similar a la operación de agrupación promedio ampliamente utilizada en las CNN. Los autores observaron que las representaciones siguen siendo locales, incluso para canales individuales en capas profundas de la red.

Con este fin, el token CLS parece desempeñar un papel relativamente menor en toda la red y no se usa para la globalización hasta la última capa. Los autores demostraron esta hipótesis realizando inferencias en imágenes sin usar el token CLS en las capas 1-11 y luego insertando un valor para el token CLS en la capa 12. El ViT resultante todavía podría clasificar con éxito el 78,61 % del conjunto de validación de ImageNet en lugar del original 84,20%.

Por lo tanto, tanto las CNN como las ViT exhiben una especialización progresiva de características, donde las primeras capas reconocen características básicas de la imagen, como el color y los bordes, mientras que las capas más profundas reconocen estructuras más complejas. Sin embargo, una diferencia importante encontrada por los autores se refiere a la dependencia de ViT y CNN en las características de la imagen de fondo y de primer plano. El estudio observó que las ViT son significativamente mejores que las CNN en el uso de la información de fondo en una imagen para identificar la clase correcta y sufren menos por la eliminación del fondo. Además, las predicciones de ViT son más resistentes a la eliminación de información de textura de alta frecuencia en comparación con los modelos ResNet (resultados visibles en la Tabla 2 del documento).

Finalmente, el estudio también analiza brevemente las representaciones aprendidas por los modelos ViT entrenados en el marco de Preentrenamiento de Imagen de Lenguaje Contrastivo (CLIP) que conecta imágenes y texto. Curiosamente, descubrieron que los ViT entrenados con CLIP producen características en capas más profundas activadas por objetos en categorías conceptuales claramente discernibles, a diferencia de los ViT entrenados como clasificadores. Esto es razonable pero sorprendente porque el texto disponible en Internet proporciona objetivos para conceptos abstractos y semánticos como "morbilidad" (los ejemplos son visibles en la Figura 11).

Revisar laPapelyGithub. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirtenuestro 13k+ ML SubReddit,Canal de discordia, yBoletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Lorenzo Brigato es Investigador Postdoctoral en el centro ARTORG, una institución de investigación afiliada a la Universidad de Berna, y actualmente está involucrado en la aplicación de la IA a la salud y la nutrición. Tiene un doctorado. Licenciado en Informática por la Universidad Sapienza de Roma, Italia. Su doctorado La tesis se centró en los problemas de clasificación de imágenes con distribuciones de datos deficientes en muestras y etiquetas.

Github de papel. nuestro boletín informativo por correo electrónico de 13k+ ML SubReddit Discord Channel
COMPARTIR