SpectFormer de Microsoft y Bath U mejora significativamente los transformadores de visión a través de la frecuencia y la atención
En el nuevo artículo SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer, un equipo de investigación de Microsoft y la Universidad de Bath propone Spectformer, una arquitectura de transformador novedosa que combina capas de atención espectrales y de múltiples cabezas para capturar mejor las representaciones de características apropiadas. y mejorar el rendimiento.
Siguiendo el rendimiento histórico de los modelos de lenguaje grande basados en la arquitectura de transformadores, los transformadores de visión (ViT) han surgido como un enfoque poderoso para el procesamiento de imágenes. Al igual que sus predecesores basados en texto, los ViT inicialmente se basaron en capas de autoatención de múltiples cabezas para capturar características de las imágenes de entrada, mientras que los enfoques más recientes han empleado capas espectrales para representar parches de imagen en el dominio de la frecuencia. ¿Podría ViTs beneficiarse de una arquitectura que incorpore ambos métodos?
En el nuevo artículo SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer, un equipo de investigación de Microsoft y la Universidad de Bath propone SpectFormer, una arquitectura de transformador novedosa que combina capas de atención espectrales y de múltiples cabezas para capturar mejor las representaciones de características apropiadas. y mejorar el rendimiento de ViT.
El equipo resume sus principales contribuciones de la siguiente manera:
El equipo primero explora cómo funcionan las diferentes combinaciones de capas de atención espectrales y de múltiples cabezas en comparación con los modelos espectrales o de atención exclusivamente, y concluye que equipar su SpectFormer propuesto con capas espectrales iniciales implementadas con la Transformada de Fourier seguida de capas de atención de múltiples cabezas logra los resultados más prometedores. .
La arquitectura SpectFormer tiene cuatro componentes principales: una capa de incrustación de parches, una capa de incrustación posicional, un bloque transformador que comprende una serie de capas espectrales seguidas de capas de atención y un cabezal de clasificación. La canalización de SpectFormer primero transforma tokens de imagen al dominio de Fourier (en espacio espectral), donde se realiza un análisis basado en la frecuencia de la información de la imagen y se capturan las características relevantes; luego aplica técnicas de activación a través de parámetros de peso que se pueden aprender; y finalmente realiza una transformada inversa de Fourier para devolver la señal del espacio espectral al espacio físico.
En su estudio empírico, el equipo comparó SpectFormer con el DeIT basado en la autoatención de varios cabezales, el LiT de arquitectura paralela y el GFNet ViTs basado en el espectro en varias tareas de detección de objetos y clasificación de imágenes. SpectFormer mejoró todas las líneas de base en los experimentos, logrando una precisión top-1 de última generación (85,7 %) en el conjunto de datos ImageNet-1K.
El código y la información adicional están disponibles en la página web del proyecto. El artículo Spectformer: Frecuencia y atención es lo que necesita en un transformador de visión está en arXiv.
Autor: Hécate He |Editor: Michael Sarazen
Sabemos que no quiere perderse ninguna noticia o avance de investigación.Suscríbase a nuestro popular boletín Synced Global AI Weekly para obtener actualizaciones semanales de IA.
Inteligencia de máquinas | Tecnología e Industria | Información y análisis
Increíble publicación¡Excelente artículo! La arquitectura SpectFormer propuesta parece muy prometedora. Tengo curiosidad acerca de cómo se compara con otros modelos de última generación como Swin Transformer y ViT-L en términos de rendimiento y eficiencia computacional. ¿Cree que SpectFormer tiene el potencial para convertirse en el nuevo punto de referencia para los transformadores de visión? Johnhttps://www.airiches.online/
Realmente me gusta lo simple que es para mí hacer la lectura. Me gustaría saber cómo recibir una notificación cada vez que se crea una nueva publicación.
Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados *
Comentario *
Nombre
Correo electrónico
Sitio web
Notifíqueme de comentarios consecuentes por email.
Notificarme de nuevas publicaciones a través de email.
D
Autor Editor Suscríbase a nuestro popular boletín Synced Global AI Weekly para recibir actualizaciones semanales de IA.