La exploración visual de Maryland U y NYU revela lo que aprenden los transformadores de visión
En el nuevo documento ¿Qué aprenden los transformadores de visión? A Visual Exploration, un equipo de investigación de la Universidad de Maryland y la Universidad de Nueva York utiliza visualizaciones de características a gran escala de una amplia gama de transformadores de visión para obtener información sobre lo que aprenden de las imágenes y cómo se diferencian de las redes neuronales convolucionales.
Desde su introducción en 2020, los transformadores de visión (ViT) se han convertido en una arquitectura de visión por computadora líder, logrando un rendimiento de vanguardia en tareas que van desde la detección de objetos y el reconocimiento de imágenes hasta la segmentación semántica. Pero comprender los mecanismos internos que contribuyen al éxito de ViT (qué y cómo aprenden realmente de las imágenes) sigue siendo un desafío.
En el nuevo documento ¿Qué aprenden los transformadores de visión? A Visual Exploration, un equipo de investigación de la Universidad de Maryland y la Universidad de Nueva York utiliza visualizaciones de características a gran escala de una amplia gama de ViT para obtener información sobre lo que aprenden de las imágenes y cómo se diferencian de las redes neuronales convolucionales (CNN).
El equipo resume sus principales contribuciones de la siguiente manera:
Al igual que con los métodos de visualización convencionales, el equipo utiliza pasos de gradiente para maximizar las activaciones de funciones a partir del ruido aleatorio. Para mejorar la calidad de la imagen, penalizan la variación total (Mahendran & Vedaldi, 2015) y adoptan técnicas de aumento de Jitter (Yin et al., 2020), aumento de ColorShift y conjunto de aumento (Ghiasi et al., 2021).
Para permitir una comprensión más profunda del contenido de una característica visualizada dada, el equipo empareja cada visualización con imágenes del conjunto de validación/entrenamiento de ImageNet que tienen el efecto de activación más fuerte con respecto a la característica relevante. Trazan el patrón de activación de la función pasando las imágenes más activas a través de la red ViT y mostrando el patrón resultante de activaciones de funciones.
El equipo primero intenta visualizar las características de la capa de atención de múltiples cabezas de ViT, incluidas claves, consultas y valores, maximizando las neuronas activadas. Luego, estudian la preservación de la información espacial de los parches a partir de las visualizaciones de los niveles de activación de características de los parches y descubren, sorprendentemente, que aunque cada parche puede influir en la representación de todos los demás parches, las representaciones siguen siendo locales. Esto indica que los ViT aprenden y conservan la información espacial desde cero.
El equipo también descubre que esta preservación de la información espacial se abandona en el último bloque de atención de la red, que actúa de manera similar a la agrupación promedio. Deducen que la red globaliza la información en la última capa para garantizar que el token de clase (CLS) tenga acceso a la imagen completa, y concluyen que el token CLS desempeña un papel relativamente menor en la red general y no se usa para la globalización hasta esta última capa. .
En su estudio empírico, los investigadores encuentran que las proyecciones internas de alta dimensión de las capas de avance de ViT son adecuadas para producir imágenes interpretables, mientras que las características clave, de consulta y de valor de la autoatención no lo son. En las comparaciones de CNN vs ViT, el equipo observa que ViTs puede utilizar mejor la información de fondo y hacer predicciones muy superiores. También se muestra que los ViT entrenados con la supervisión del modelo de lenguaje obtienen mejores características semánticas y conceptuales.
En general, este trabajo emplea un enfoque de visualización eficaz e interpretable para proporcionar información valiosa sobre cómo funcionan los ViT y qué aprenden.
El código está disponible en el GitHub del proyecto. El documento ¿Qué aprenden los transformadores de visión? Una exploración visual está en arXiv.
Autor: Hécate He |Editor: Michael Sarazen
Sabemos que no quiere perderse ninguna noticia o avance de investigación.Suscríbase a nuestro popular boletín Synced Global AI Weekly para obtener actualizaciones semanales de IA.
Inteligencia de máquinas | Tecnología e Industria | Información y análisis
Pingback: La exploración visual de Maryland U y NYU revela lo que aprenden los transformadores de visión | Sincronizado -
Pingback: Principales tendencias en redes sociales 2023 para mantenerse a la vanguardia del juego
Gracias
En resumen, este trabajo utiliza una estrategia de visualización poderosa y comprensible para arrojar luz sobre el funcionamiento interno de ViT y las lecciones que adquieren.
Gracias por la valiosa información y conocimientos.
Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados *
Comentario *
Nombre
Correo electrónico
Sitio web
Notifíqueme de comentarios consecuentes por email.
Notificarme de nuevas publicaciones a través de email.
D
Autor Editor Suscríbase a nuestro popular boletín Synced Global AI Weekly para recibir actualizaciones semanales de IA.