EEG temporal

Scientific Reports volumen 12, Número de artículo: 14378 (2022) Citar este artículo

4079 Accesos

1 Citas

3 Altmetric

Detalles de métricas

Se ha dedicado un número creciente de estudios al reconocimiento de identidad por electroencefalograma (EEG), ya que las señales de EEG no se roban fácilmente. La mayoría de los estudios existentes sobre la identificación de personas por EEG solo han abordado las señales cerebrales en un solo estado, dependiendo de los estímulos sensoriales específicos y repetitivos. Sin embargo, en realidad, los estados humanos son diversos y cambian rápidamente, lo que limita su practicidad en entornos realistas. Entre muchas soluciones potenciales, el transformador es ampliamente utilizado y logra un excelente rendimiento en el procesamiento del lenguaje natural, lo que demuestra la capacidad sobresaliente del mecanismo de atención para modelar señales temporales. En este artículo, proponemos un enfoque basado en transformadores para la tarea de identificación de personas EEG que extrae características en los dominios temporal y espacial utilizando un mecanismo de autoatención. Realizamos un extenso estudio para evaluar la capacidad de generalización del método propuesto entre diferentes estados. Nuestro método se compara con las técnicas biométricas de EEG más avanzadas y los resultados muestran que nuestro método alcanza resultados de última generación. En particular, no necesitamos extraer ninguna característica manualmente.

En el mundo globalizado de la información de hoy, la seguridad de la información personal se ha vuelto particularmente importante1, lo que lleva a la necesidad de tecnologías de identificación nuevas y más sofisticadas. A pesar de que las tecnologías de identificación existentes se han aplicado ampliamente en la vida diaria y han logrado una alta precisión, incluidas las huellas dactilares, el iris o el reconocimiento facial2,3,4 y han logrado altas tasas de precisión de reconocimiento. Sin embargo, el problema con estos datos biométricos es que pueden ser fácilmente robados o revelados sin darse cuenta. La seguridad de estas tecnologías no está efectivamente garantizada. En comparación con la biometría convencional mencionada anteriormente, la biometría cognitiva ha atraído más interés de investigación por razones de seguridad.

A diferencia de la biometría convencional, que se basa en características fisiológicas o de comportamiento, la biometría cognitiva es un tipo de biometría que mide la actividad del cerebro humano y analiza cómo "piensan" las personas5. Existen varios métodos de medición de la actividad cerebral humana, y estos métodos se basan en diferentes principios para reflejar la actividad cerebral. La resonancia magnética funcional (fMRI) midió la concentración de oxihemoglobina y desoxihemoglobina, lo que puede indicar los cambios hemodinámicos causados por la actividad neuronal. La tomografía por emisión de positrones (PET) mide el metabolismo neuronal mediante la inyección de una sustancia radiactiva en el cuerpo del sujeto. La espectroscopia de infrarrojo cercano (NIRS) mide la concentración de oxihemoglobina y desoxihemoglobina por la intensidad del reflejo de la luz infrarroja de la corteza cerebral para reflejar la actividad cerebral. La magnetoencefalografía (MEG) recoge el campo magnético generado por las corrientes cerebrales mientras que la electroencefalografía (EEG) recoge los campos eléctricos generados.

Elegimos EEG para la tarea de identificación. En comparación con otras técnicas, el EEG puede adquirirse mediante dispositivos portátiles y relativamente económicos6,7. En particular, la tecnología de interfaz cerebro-computadora no invasiva se usa a menudo para capturar señales de EEG, que es más segura y conveniente que los enfoques invasivos. La amplitud de la señal EEG de los humanos normales oscila entre 10 y 200 \(\upmu \)V, mientras que la frecuencia suele variar entre 0,5 y 40 Hz. Tiene una alta resolución temporal, normalmente del orden de milisegundos5. En términos de resolución espacial, EEG revela una resolución espacial más baja debido a la limitación de tamaño del dispositivo de adquisición y la interacción de los campos eléctricos entre las diferentes regiones del cerebro. Sin embargo, vale la pena señalar que la variabilidad individual es la base de la identificación de personas, y EEG no es una excepción. Algunos estudios8,9 han demostrado que las señales EEG tienen una fuerte variabilidad individual, especialmente en las ondas alfa10. La consistencia es otro factor crucial para la identificación, ya que esta biometría requiere test-retest, lo que significa que las características permanecen invariables de manera estable a lo largo del tiempo y el lugar11,12. La señal EEG también es muy segura. Esto es especialmente importante para la identificación de personas, ya que la identificación de personas requiere equipos de adquisición y amplificadores especializados para recopilar información. Dicha información personal no debe filtrarse inadvertidamente ni accederse a ella de forma remota. Por lo tanto, en cuanto a la seguridad de los datos, la identificación basada en EEG es confiable, ya que es más difícil de explotar para los delincuentes. EEG garantiza la seguridad de la información a través de la detección de emociones. La identificación no se puede procesar sin el consentimiento de los usuarios, ya que el nerviosismo detectado por EEG puede provocar una falla en la autenticación. Además, mientras que la señal EEG es un rasgo interno que solo puede generarse cuando el cerebro está activo, naturalmente cumple la función de detección de vida13. Por último, pero no menos importante, las señales de EEG son universales, y las señales de EEG se pueden capturar de cada individuo a menos que alguna patología cause daño estructural al cerebro que impida la producción de señales de EEG.

En resumen, la identificación de personas EEG muestra una gran promesa para la aplicación. Sin embargo, la mayor parte de la investigación actual solo estudió el reconocimiento en un solo estado, que aún no puede garantizar la precisión y la solidez del reconocimiento. Por lo tanto, aplicamos el mecanismo de atención para construir una red para tareas de identificación y logramos un gran progreso. Las principales contribuciones de este trabajo se describen a continuación:

Proponemos el modelo de red neuronal basado en codificador de transformador ETST, transformador temporal-espacial de EEG, que puede extraer bien la información de las señales de EEG sobre las diferencias individuales en los dominios de tiempo y espacio y garantizar la precisión de la identificación incluso en el caso de estados cruzados. .

Se llevan a cabo extensos experimentos y los resultados muestran que nuestro modelo supera a todos los modelos de última generación. Investigamos el papel de la información temporal y espacial de las señales de EEG en la tarea de identificación de personas. Además, se investiga el efecto de la codificación de posición diferente en el transformador EEG.

Exploramos el efecto de la longitud de la muestra en nuestro modelo basado en transformadores e introducimos un método de aumento de datos para mejorar el rendimiento. El método aumenta el tamaño de la muestra aumentando la tasa de superposición entre muestras en el tiempo y finalmente se observa una mejora de entre 1 y 3% con la estrategia.

Los actuales sistemas biométricos basados en EEG se dividen ampliamente en dos enfoques. Una es extraer características distinguibles primero y luego utilizar métodos tradicionales de aprendizaje automático para la clasificación, y la otra es emplear un enfoque de aprendizaje profundo de extremo a extremo, que logra tanto la extracción como la clasificación de características. Kong et al. suponga que el EEG relacionado con la tarea se puede descomponer en dos partes, incluido el EEG de fondo (BEEG) y el EEG residual (REEG). BEEG contiene las características distintivas de una persona, mientras que REEG se compone de EEG y ruidos provocados por tareas. Kong utilizó el algoritmo de identificación basado en la descomposición de matriz de bajo rango (LRDM) para descomponer la señal del EEG y luego utilizó el algoritmo del criterio de correntropía máxima (MCC) para lograr la clasificación14. Wang et al. argumentó que la conectividad funcional del cerebro refleja la especificidad individual. Calcularon la conectividad de la señal de EEG mediante el cálculo de métricas de señales de EEG como vectores de características y luego usaron un modelo discriminante basado en la distancia de Mahalanobis para realizar la identificación de personas15. Moctezuma et al. adoptó la descomposición de modo empírico (EMD) para descomponer las señales de EEG en un conjunto de funciones de modo intrínseco (IMF), y posteriormente seleccionó los dos IMF más cercanos y los descompuso en cuatro características. De esta forma cada canal devolverá ocho funciones. Finalmente, emplearon una máquina de vectores de soporte (SVM) con función de base radial (RBF) como clasificador16. Además de utilizar SVM como clasificador, Alyasseri et al. aplicó FPA\(\beta \)-hc, que es una técnica de optimización híbrida basada en el algoritmo binario de polinización de flores (FPA) y \(\beta \)-escalada para extraer características17. Yıldırım et al. construyó un modelo CNN 1D apilado con múltiples capas para extraer características de nivel profundo de las señales EEG sobre la especificidad individual18. Wilaiprasitporn et al. trató de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN), donde CNN se usa para extraer características espaciales y RNN se usa para extraer características temporales19. Ozdenizci et al. probó un enfoque de inferencia contradictorio dentro de una estructura de red convolucional profunda, que es capaz de aprender características invariantes de sesión y discriminatorias de personas20.

Actualmente, Transformer ha mostrado buenos resultados tanto en el procesamiento del lenguaje natural (NLP) como en el campo de la visión artificial (CV)21,22,23. Transformer es capaz de modelar dependencias de largo alcance y tiene una velocidad de cálculo más rápida en comparación con RNN o memoria a corto plazo (LSTM) debido a su característica de cálculo paralelo. Por lo tanto, Transformer ha tomado la delantera en el campo de la PNL, atrayendo el interés de los investigadores. Sin embargo, los académicos aún no han investigado la capacidad de Transformer para procesar señales de EEG. Arjun et al. Migró directamente ViT, que funciona bien en imágenes, a señales EEG. La señal EEG en 1D se cortó en diferentes parches en la dimensión del tiempo y se usó como entrada para el modelo ViT24. Lee et al. EEGNet combinado y transformador, utilizando una red neuronal convolucional basada en EEGNet para obtener las características temporales-espectrales-espaciales25. Tao et al. propusieron un Transformador con compuerta, que es una combinación del mecanismo de autoatención y el mecanismo de compuerta en GRU para obtener la información de las señales EEG en series de tiempo26. Canción et al. propuso un método basado en un patrón espacial común (CSP) para extraer las características espaciales de las señales de EEG junto con un algoritmo de autoatención para decodificarlas. Este método consigue un efecto de última generación27. Estos enfoques muestran que el mecanismo de autoatención puede mejorar el rendimiento de los sistemas de interfaz cerebro-computadora (BCI). Por lo tanto, diseñamos nuestro modelo basado en el mecanismo de autoatención.

En este documento, proponemos un modelo de identificación de personas EEG basado en el mecanismo de atención21, y el diagrama de marco general se muestra en la Fig. 1. A diferencia de otros modelos, nuestro enfoque no requiere extracción adicional de características artificiales de señales EEG, y solo sin procesar. Las señales de EEG se utilizan para la tarea de identificación. Teniendo en cuenta que la señal EEG es continua en el tiempo y funcionalmente conectada entre canales, diseñamos el modelo para capturar características temporales y espaciales. El modelo consta de dos partes principales, que contienen un codificador de transformador temporal (TTE) y un codificador de transformador espacial (STE). En la parte de TTE, usamos el mecanismo de atención en el dominio del tiempo para calcular la correlación entre los puntos de muestreo en las muestras, que se usa para extraer las características del EEG en el dominio del tiempo. Dado que existe una especificidad individual en la relación de acoplamiento de los canales entre individuos, diseñamos la parte STE para calcular la atención del dominio espacial de los canales para capturar la relación de acoplamiento entre diferentes señales de canal, lo que permite que el modelo identifique a diferentes individuos de manera más estable en función de la relación de acoplamiento específica. Finalmente, se aplica una capa simple completamente conectada para agregar información global y realizar la clasificación. A continuación, explicaremos en detalle el preprocesamiento de EEG sin procesar y los componentes del modelo ETST.

La arquitectura del modelo ETST.

Antes de introducir datos en ETST, primero procesamos el EEG sin procesar. La señal EEG original se filtra mediante un filtro de paso de banda de [0,5 42] Hz para eliminar los ruidos de baja y alta frecuencia. Eliminamos los artefactos oculares y musculares mediante análisis de componentes independientes (ICA). El tamaño de cada muestra es T \(\times \) C, donde T es el número de puntos de muestreo y C es el número de canales de EEG. Para cada muestra, se empleará la siguiente estandarización de puntuación z a lo largo del tiempo para cada canal:

donde t , c en \(x_{t,c}\) denota el punto de muestreo y el canal de la muestra, \({\overline{x}}_{c}\) denota la media de la muestra en el canal c y \(\sigma _{c}\) denota la desviación estándar de la muestra en el canal c. Después de la estandarización, la media de los datos en cada canal de la muestra es 0 y la desviación estándar es 1.

Usamos correlación temporal, o correlación entre dos puntos de tiempo, para capturar la información de dominio de tiempo de las señales de EEG. Inspirándonos en el mecanismo de atención21, usamos múltiples bloques transformadores para codificar la información temporal del EEG. En lugar de centrarse en la convolución en la información local, TTE tiene en cuenta la dependencia de larga distancia en el tiempo. Introducimos directamente datos de EEG preprocesados en el transformador, en lugar de emplear transformaciones complicadas como convoluciones28,29 o proyecciones lineales entrenables24. Para una entrada dada \(X=[x^{1},x^{2},\ldots ,x^{T}]\in {\mathbb {R}}^{T\times C}\), tenemos calculamos la autoatención en el bloque del transformador para estimar las correlaciones temporales y luego ponderamos la suma para obtener la nueva representación. La autoatención se calcula de la siguiente manera:

donde Q, K y V son matrices obtenidas mediante proyecciones lineales de la entrada y \(d_{k}\) es un factor escalar. Para atender conjuntamente la información de diferentes subespacios de representación en diferentes posiciones, adoptamos el mecanismo de atención de múltiples cabezas21 en la entrada. Cada codificador de transformador contiene dos partes: atención multicabezal (MHA) y perceptrón multicapa (MLP). Cada parte emplea conexión residual30 y normalización de capas (LN)31 para mejorar la velocidad de entrenamiento y la solidez del modelo. La figura 2 ilustra el proceso de cálculo anterior. La parte TTE se puede expresar por:

(izquierda) La arquitectura de un codificador de transformador. (derecha) Atención de múltiples cabezas.

Los canales en la señal de EEG representan las ubicaciones de los electrodos en el cuero cabelludo y la conectividad funcional entre diferentes regiones del cerebro se puede calcular considerando las dependencias entre diferentes canales. Similar a TTE, en STE también usamos el mecanismo de atención para modelar la información espacial entre diferentes canales. Para preservar la información de ubicación espacial, agregamos la codificación de posición del dominio espacial a la entrada y luego alimentamos el resultado a STE:

donde tran() representa la operación de transposición y \(E_{pos}\in {\mathbb {R}}^{C\times T}\) representa la codificación de posición. En este artículo, usamos la codificación de posición en forma de función trigonométrica en una posición fija. \(z^{s}_{0}\) denota la representación con la adición de información de posición espacial. En el STE, usamos una estructura similar a la del TTE para aprender la información espacial en los diferentes canales del EEG. La ecuación del proceso se expresa como:

La salida de las capas del codificador del transformador, TTE y STE, produce una mejor representación que contiene características tanto en el dominio del tiempo como en el dominio del espacio. ETST aprende la información de dominio de tiempo de los datos de EEG en los diferentes puntos de muestreo en TTE. En el STE subsiguiente, ETST aprende la información espacial entre canales. Luego, para fusionar la información global en la representación para la clasificación, se usa una capa simple completamente conectada con solo una capa para obtener la salida de clasificación final que se optimiza usando la función de pérdida de entropía cruzada.

donde N denota el número de tamaños de lote y C denota el número de categorías. \(y^{c}_{n}\) es la verdadera etiqueta caliente, \({\hat{y}}^{c}_{n}\) es la probabilidad predicha de la categoría correspondiente.

Este documento no contiene ningún estudio con participantes humanos o animales realizado por ninguno de los autores.

Validamos nuestro método en un conjunto de datos de EEG proporcionado por PhysioNet32. Este conjunto de datos se registró utilizando el sistema BCI200033 y consta de más de 1500 registros de EEG de 1 y 2 min, obtenidos de 109 sujetos. La frecuencia de muestreo fue de 160 Hz. Estos datos de EEG se registraron con 64 electrodos, que se ajustaban al sistema 10-10. Se pidió a los sujetos que realizaran tareas motoras/imágenes mientras el sistema registraba la señal del EEG. Cada sujeto completó 14 carreras experimentales, incluidas 2 carreras de referencia de 1 minuto y 12 carreras de tareas de 2 minutos. En las carreras de referencia, las señales de EEG se registraron mientras los sujetos mantenían los ojos abiertos (EO) y los ojos cerrados (EC), respectivamente. En las ejecuciones de tareas, se les pidió a los sujetos que completaran cuatro tareas motoras/imágenes, que incluían completar la acción física correspondiente (PHY) o imaginar completar la acción correspondiente (IMA) cuando el objetivo aparecía en la computadora, y descansar cuando el objetivo desaparecía. La tarea 1 es abrir y apretar el puño correspondiente cuando un objetivo está en el lado izquierdo o derecho de la pantalla de la computadora. La Tarea 2 es imaginar abrir y cerrar el puño correspondiente cuando un objetivo está en el lado izquierdo o derecho de la pantalla de la computadora. La tarea 3 es abrir y apretar ambos puños cuando aparece un objetivo en la parte superior o inferior de la computadora. La tarea 4 es imaginar abrir y apretar ambos puños cuando aparece un objetivo en la parte superior o inferior de la computadora. Cada tarea se repite tres veces, con un total de doce ejecuciones de tareas. En nuestros experimentos, usamos todos los sujetos en el conjunto de datos. Se utiliza una ventana de 1 s con un 50 % de superposición de cada canal para generar muestras. Por lo tanto, la forma de una muestra es 160 \(\times \) 64.

Para que la tecnología de identificación de personas EEG sea realista y factible, se debe poder garantizar la estabilidad y robustez del sistema. Esto también significa que el modelo debe ser capaz de identificar a los sujetos de manera consistente y precisa por sus señales de EEG, incluso si los sujetos están en diferentes estados, como felices o tranquilos, o incluso pensando en algo. Realizamos varios experimentos para verificar la efectividad y viabilidad de ETST en la biometría de EEG. La señal EEG en Physionet Dataset contiene cuatro estados, EO, EC, PHY e IMA. Diseñamos varios experimentos basados en estos cuatro estados diferentes para probar el rendimiento de ETST en diversos escenarios. Los experimentos que realizamos se describen a continuación.

Comparamos nuestro modelo con métodos de identificación EEG de última generación y también con métodos tradicionales de redes neuronales como CNN, MLP y métodos tradicionales de aprendizaje automático como SVM. En los experimentos de comparación con otros métodos, establecimos tres subexperimentos. El primero es el entrenamiento y las pruebas en un solo estado humano, y realizamos el entrenamiento y las pruebas en cuatro estados, EC, EO, IMA y PHY, que corresponde al caso de la identificación de personas EEG en un estado fijo. El segundo es entrenar en un estado y probar en otro estado, entrenaremos bajo datos EC y EO y probaremos bajo IMA y PHY. Este tipo de tarea es la más desafiante y prueba si el modelo obtenido mediante el entrenamiento bajo un paradigma de EEG se puede generalizar a otros paradigmas de EEG. El tercero es una combinación de conjuntos de datos EC, EO, IMA y PHY para entrenamiento y prueba. Para experimentos dentro del estado y en estados diversos, dividimos aleatoriamente el conjunto de datos en 4: 1 como conjunto de entrenamiento y conjunto de prueba, respectivamente.

Realizamos experimentos de ablación para explorar el efecto de cada parte del modelo en los resultados. La codificación de posición es un componente importante del modelo. La señal EEG contiene información de posición tanto en el dominio del tiempo como en el del espacio. Transformer garantiza que el modelo conserve la información de ubicación agregando codificación de posición a las especies de entrada. Investigamos el efecto de agregar la codificación de posición en el dominio del tiempo y la codificación de posición en el dominio del espacio sobre la identificación de personas por separado. Además de comparar las codificaciones de posición espacial y temporal, también realizamos experimentos de ablación en la parte del codificador de ETST. Investigamos el rendimiento de ETST al eliminar TTE y STE respectivamente, para explorar el papel de cada parte del codificador.

En los métodos de identificación EEG, no ha habido un consenso sobre la mejor longitud de segmentación de las muestras. Por ejemplo, la longitud de segmentación utilizada por Wang et al. es 1s34, mientras que la longitud de segmentación utilizada por Thiago Schons et al. es 12s35, y puede haber una gran brecha entre las longitudes de segmentación de la muestra de diferentes métodos. Por lo tanto, dividimos el conjunto de datos con diferentes longitudes divididas en nuestros experimentos para explorar el rendimiento de ETST con diferentes longitudes divididas de muestra.

Además de las diferentes longitudes de segmentación, la tasa de superposición de muestras también afecta directamente el tamaño de la muestra resultante y el grado de superposición de información entre diferentes muestras. La función de pérdida de Transformer es más suave que la de CNN36, lo que potencialmente hace que Transformer sea más difícil de converger con tamaños de muestra más pequeños, lo que resulta en un peor rendimiento. Por lo tanto, diseñamos experimentos con diferentes longitudes de superposición de muestras y obtuvimos conjuntos de datos de entrenamiento con diferentes tamaños de muestra para explorar el efecto del tamaño de la muestra en nuestro modelo.

Todos los experimentos de este documento se realizan en GPU NVIDIA TITAN Xp. El número de capas TTE, el número de cabezas de capas TTE, el número de capas STE y el número de cabezas de capas STE en el modelo se establecen en 2, 8, 2 y 8, respectivamente. Usamos el optimizador AdamW37 con tasa de aprendizaje, caída de peso y tamaño de lote de 4e−5, 1e−6 y 256, respectivamente, para optimizar la red.

Actualmente, los algoritmos de identificación de personas basados en EEG se clasifican ampliamente en dos categorías. Uno son los algoritmos tradicionales de aprendizaje automático, que generalmente requieren la extracción manual de características, incluida la densidad espectral de potencia (PSD), el coeficiente autorregresivo (AR) y la entropía difusa (FuzzEn). Otra categoría son los algoritmos de aprendizaje profundo, como los modelos de redes neuronales basados en CNN o RNN. Además, dado que el concepto de gráfico encaja bien con la conectividad funcional en neurociencia, donde las características de los gráficos se utilizan para representar las relaciones entre las regiones del cerebro, las redes neuronales convolucionales gráficas (GCNN) también están ganando popularidad en el campo de EEG. Wang et al. calculó el valor de bloqueo de fase (PLV) y la correlación de Pearson (COR) como la característica de borde entre los nodos para construir gráficos y lograr resultados avanzados34. Comparamos nuestro método con otros métodos avanzados15. Además, exploramos el efecto de los modelos recientes basados en transformadores, que combinan CNN y atención38,39. Por lo tanto, utilizamos los métodos mencionados anteriormente como línea de base y los comparamos con los resultados de nuestro modelo.

En el primer experimento, investigamos el desempeño de ETST en el mismo estado único. Entrenamos y probamos ETST en un conjunto de datos de un solo estado para evaluar el rendimiento mencionado. Los resultados se muestran en la Tabla 1. Los resultados experimentales muestran que nuestro método propuesto supera a todos los métodos cuando los datos están en el mismo estado, excepto por un resultado que es ligeramente más bajo que el de GCNN, solo un 0,2% más bajo.

Las señales del EEG pueden variar drásticamente en diferentes estados, por ejemplo, las ondas delta se asocian con una mayor atención40, las ondas alfa se relacionan con varias características cognitivas, como el desempeño de tareas41, mientras que las ondas beta se vinculan con el movimiento o las imágenes motoras42. Pero para que la biometría EEG sea práctica en la vida real, el algoritmo debe ser resistente a los cambios de estado. En otras palabras, el modelo debería poder reconocer la identidad del usuario en diferentes estados. Por lo tanto, en el segundo experimento, evaluamos la capacidad de generalización de nuestro método propuesto en diferentes estados entrenando y probando ETST en diferentes conjuntos de datos. Los datos de EO y EC se usaron como conjuntos de entrenamiento y se probaron en datos PHY e IMA, respectivamente. La Tabla 2 muestra los resultados de este experimento, que es el conjunto de entrenamiento y los conjuntos de prueba en diferentes estados. Los resultados muestran que ETST tiene una mejora significativa en comparación con otros métodos en la condición de diferentes estados. En comparación con GCNN, las mejoras son del 10,3 % en PHY y del 10,27 % en IMA. Cuando los estados en los conjuntos de entrenamiento y prueba eran diferentes, todos los métodos sufrieron una degradación del rendimiento en un grado variable, con una disminución de GCNN de aproximadamente un 13 %, SVM de aproximadamente un 40 % y la precisión de los métodos restantes cayendo a menos del 30 %. . Esto indica que los otros modelos se limitan a extraer características de los mismos estados y tienen una débil capacidad de generalización para diferentes estados. Por el contrario, el modelo ETST solo disminuye alrededor de un 3 %, lo que indica que el ETST puede extraer características que son válidas en diversos estados.

Para mejorar la solidez del modelo frente a varios estados mentales, además de la gran capacidad de generalización del propio modelo, otro enfoque consiste en incluir varios estados en el conjunto de entrenamiento y hacer que el modelo aprenda a extraer características comunes a todos los estados. Por lo tanto, en el tercer experimento, incluimos todos los estados tanto en los conjuntos de entrenamiento como de prueba, incluidos EO, EC, PHY e IMA. ETST logra cerca de los mejores resultados, como se muestra en la Tabla 3. En comparación con los resultados del experimento anterior, los resultados de este experimento muestran una menor disminución en la precisión, y solo SVM tiene una disminución considerable, hasta un 73 %. Muestra que diferentes algoritmos pueden lograr buenos resultados en caso de que los conjuntos de entrenamiento y prueba contengan todos los datos de estado. Sin embargo, este método de mejora no es aplicable a escenarios realistas. Debido a la complejidad y variabilidad de los estados humanos, es imposible contener datos de todos los estados en el conjunto de entrenamiento. Por lo tanto, la clave para resolver el problema de identificación de personas basado en EEG es mejorar la capacidad de generalización del modelo entre diferentes estados. Y nuestro ETST propuesto posee una fuerte capacidad de generalización.

En Transformer, la autoatención calcula los pesos de atención para todas las entradas simultáneamente y suma los pesos para obtener la salida. En este proceso, la autoatención considera la información global y descarta la información de ubicación de los datos de entrada. Para los datos de EEG, la señal contiene información de ubicación tanto en el dominio del tiempo como en el del espacio, lo que representa diferentes puntos de muestreo temporales y varias regiones del cerebro, respectivamente. Para investigar el efecto de la información de ubicación en EEG sobre la identificación de personas, intentamos retener la información de ubicación de EEG agregando codificación de posición a la entrada de las capas TTE y STE, respectivamente. Comparamos el efecto de agregar codificación posicional a ETST en los dominios de tiempo y espacio bajo el conjunto de datos de estado cruzado, y los resultados se muestran en la Tabla 4. Muestra que agregar solo la codificación de posición espacial produjo un mejor resultado que el de la temporal Codificación de posición. El diseño de este modelo también produjo el mejor rendimiento de nuestro modelo (97 % en IMA, 97 % en PHY). Agregar la codificación de posición temporal y espacial generó el siguiente mejor resultado (96 % en IMA, 95 % en PHY). Descubrimos que el rendimiento del modelo se puede mejorar al agregar información espacial, mientras que se puede disminuir al agregar información temporal. Además, al observar el proceso de entrenamiento del modelo, descubrimos que agregar la información de ubicación en el dominio del tiempo también afecta la eficiencia del entrenamiento hasta cierto punto, lo que hace que sea más probable que el modelo converja a peores mínimos, lo que conduce a malos resultados. Creemos que la codificación de posición absoluta en el dominio del tiempo rompe la invariancia de traducción de las señales EEG, lo que dificulta que el modelo extraiga las características del dominio del tiempo. La codificación de posición espacial absoluta retiene la información de posición de diferentes canales. A diferencia del mismo punto de muestreo que puede aparecer en diferentes ubicaciones en muestras adyacentes, las posiciones de los canales en las muestras son fijas. Por lo tanto, la inclusión de la codificación de posición absoluta en el dominio del espacio podría mejorar la capacidad del modelo para la extracción de características espaciales.

El modelo ETST contiene dos partes, la capa TTE y la capa STE, para extraer características en el dominio del tiempo y el dominio del espacio, respectivamente. Para ilustrar la importancia de las dos características distintas en los resultados experimentales, realizamos experimentos de ablación en estado cruzado para que el modelo refleje la necesidad de cada parte de nuestro modelo. Como puede verse en la Tabla 5, comparamos los resultados bajo los modelos TTE, STE y TTE + STE. Los resultados indican que usar solo la capa TTE o solo la capa STE hace que la precisión sea significativamente menor. Además, los resultados muestran que la capa TTE tiene una precisión de clasificación ligeramente superior a la de STE (75,19 % en IMA y 72,98 % en PHY frente a 70,22 % en IMA y 68,98 % en PHY). Por lo tanto, se puede demostrar que la información en el dominio del tiempo es más importante que la información en el dominio del espacio para la identificación de personas. Para adquirir información temporal y espacial de EEG simultáneamente, nuestro modelo consta de capas TTE y STE, que pueden mejorar considerablemente el rendimiento del modelo y así lograr el efecto de vanguardia.

La longitud de segmentación de la muestra varía en los métodos anteriores. Como resultado, es posible que algunos métodos solo funcionen con longitudes de segmentación de muestra más cortas, mientras que otros hacen lo contrario. El mismo método con muestras de diferentes longitudes divididas puede producir resultados muy variados. Para ilustrar la generalización en la longitud de la muestra de nuestro método, comparamos la precisión de clasificación del modelo bajo diferentes muestras de longitud de segmentación. Vale la pena señalar que el uso de una longitud de muestra más larga daría como resultado un tamaño de muestra más pequeño. Por ejemplo, el tamaño de la muestra de la longitud de segmentación de 5 s es solo aproximadamente una quinta parte de la de 1 s. De la Fig. 3, la muestra de longitud de 1 s logra los mejores resultados con la misma tasa de superposición. Además, podemos ver que cuanto mayor sea la longitud de la muestra, menor será la precisión de la clasificación. Namuk Park et al.36 mencionaron que para Transformer, el tamaño del conjunto de datos afecta directamente los resultados finales del entrenamiento debido a su función de pérdida más suave, es decir, el transformador funciona peor con menos muestras.

Intentamos aumentar el número de muestras aumentando la tasa de superposición de la ventana deslizante. El aumento de datos de las muestras se realiza utilizando una tasa de superposición del 80% y los resultados se comparan para diferentes tamaños de conjuntos de entrenamiento. Como se ve en la Fig. 3, cuando cambiamos la relación de superposición al 80% y, por lo tanto, aumentamos el tamaño de la muestra del conjunto de datos dos veces, la precisión del modelo aumentó. La precisión de 5 s aumenta al 95,44 %, ligeramente inferior en aproximadamente un 2 % en comparación con la precisión de 1 s. Esto sugiere que un tamaño de muestra insuficiente de los datos empeora el rendimiento del modelo basado en transformadores. En general, independientemente de la longitud de la muestra, nuestro modelo logra resultados de última generación.

Resultados del modelo ETST en diferentes longitudes de segmento y superposición.

En este artículo, proponemos ETST, un modelo de aprendizaje profundo basado en el mecanismo de atención. Utilizamos un mecanismo de atención de múltiples cabezas para extraer las características temporales y espaciales de las señales de EEG. El codificador de transformador temporal en el modelo puede extraer representaciones distinguibles de largo alcance, y el codificador de transformador espacial es capaz de adquirir dependencias espaciales entre canales, lo que caracteriza la conectividad funcional entre regiones del cerebro. De esta manera, a través de varias rondas de ponderación de atención, el modelo puede enfocarse en las características que son más relevantes para las verdaderas etiquetas de clasificación. Los resultados experimentales indican que nuestro método logra una precisión de vanguardia en la identificación de personas, lo que también valida la viabilidad de EEG en biometría. El modelo también es robusto a diferentes estados. Los resultados de los experimentos de ablación muestran que las características temporales tienen un efecto relativamente significativo en el resultado de la biometría EEG. También demuestra que la codificación de la posición absoluta en el espacio mejora el modelo. Esto indica que los canales específicos y la correlación entre los canales pueden tener un impacto en la identificación de la persona. Los experimentos demuestran que los datos de EEG más largos conducen a una ligera disminución en el rendimiento del mecanismo de atención. Además, la aplicación de Transformer en EEG requiere datos suficientes para asegurar su desempeño. Por lo tanto, es necesario investigar el método de argumento de datos para datos de EEG en estudios futuros. Además, la elección de los hiperparámetros para nuestro modelo aún no es óptima debido a la limitación de tiempo, lo que conduce al rendimiento subóptimo del modelo.

Los problemas de estabilidad y consistencia son dos temas clave en la implementación de la biometría EEG en aplicaciones prácticas, y existe la necesidad de garantizar que el modelo pueda volver a identificar a los usuarios correctamente, independientemente de las condiciones y los tiempos. Esto requiere que el modelo sea capaz de extraer características invariantes en el tiempo y en el estado. En trabajos futuros, exploraremos nuevos enfoques para realizar una extracción de características más efectiva para las señales de EEG. Los métodos potenciales incluyen el filtrado de las características de la banda alfa de las señales de EEG, que tiene una fuerte variación interindividual en el estado de reposo; y seleccionar los canales con una fuerte correlación con la identificación de personas eliminando al mismo tiempo el efecto de los canales redundantes. Al mismo tiempo, aún no se han realizado experimentos sobre la identificación de personas basada en EEG en diferentes días.

El conjunto de datos utilizado para este estudio está disponible públicamente y accesible en línea en la base de datos de PhysioNet [https://physionet.org/content/eegmmidb/1.0.0/]32.

Soomro, ZA, Shah, MH y Ahmed, J. La gestión de la seguridad de la información necesita un enfoque más holístico: una revisión de la literatura. En t. J.Inf. Administrar 36, 215–225 (2016).

Artículo Google Académico

Cappelli, R., Ferrara, M. & Maltoni, D. Código de cilindro Minutia: una nueva técnica de representación y coincidencia para el reconocimiento de huellas dactilares. Trans. IEEE. Patrón Anal. Mach. Intel. 32, 2128–2141 (2010).

Artículo Google Académico

Masek, L. et al. Reconocimiento de Patrones de Iris Humano para Identificación Biométrica. Doctor. tesis, Citeseer (2003).

Guillaumin, M., Verbeek, J. & Schmid, C. ¿Eres tú? Enfoques de aprendizaje métrico para la identificación de rostros. En 2009 IEEE 12th International Conference on Computer Vision 498–505 (IEEE, 2009).

Campisi, P. & La Rocca, D. Ondas cerebrales para el reconocimiento automático de usuarios basado en biometría. Trans. IEEE. información Seguridad Forense. 9, 782–800 (2014).

Artículo Google Académico

Tan, D. & Nijholt, A. Interfaces cerebro-computadora e interacción humano-computadora. En Brain-Computer Interfaces (eds Tan, DS & Nijholt, A.) 3–19 (Springer, 2010).

Capítulo Google Académico

Min, B.-K., Marzelli, MJ y Yoo, S.-S. Enfoques basados en neuroimagen en la interfaz cerebro-computadora. Tendencias Biotecnología. 28, 552–560 (2010).

Artículo CAS Google Académico

Berkhout, J. & Walter, DO Estabilidad temporal y diferencias individuales en el EEG humano: un análisis de la varianza de los valores espectrales. Trans. IEEE. biomedicina Ing. 3, 165–168 (1968).

Artículo Google Académico

Vogel, F. La base genética del electroencefalograma humano normal (EEG). Genética humana 10, 91–114 (1970).

Artículo CAS Google Académico

Van Dis, H., Corner, M., Dapper, R., Hanewald, G. & Kok, H. Diferencias individuales en el electroencefalograma humano durante la vigilia tranquila. Electroencefalograma clin. Neurofisiol. 47, 87–94 (1979).

Artículo Google Académico

Henry, CE Diferencias electroencefalográficas individuales y su constancia: I. Durante el sueño. Exp. J. psicol. 29, 117 (1941).

Artículo Google Académico

Henry, CE Diferencias electroencefalográficas individuales y su constancia: II. Durante la vigilia. Exp. J. psicol. 29, 236 (1941).

Artículo Google Académico

Ruiz-Blondet, MV, Jin, Z. & Laszlo, S. Cerebre: Un método novedoso para la identificación biométrica potencial relacionada con eventos de muy alta precisión. IEEE Tran. información Seguridad Forense. 11, 1618–1629 (2016).

Artículo Google Académico

Kong, X., Kong, W., Fan, Q., Zhao, Q. y Cichocki, A. Identificación de EEG independiente de la tarea a través de la descomposición de matriz de bajo rango. En 2018 Conferencia internacional IEEE sobre bioinformática y biomedicina (BIBM) 412–419 (IEEE, 2018).

Wang, M., Hu, J. & Abbass, HA Brainprint: identificación biométrica EEG basada en el análisis de gráficos de conectividad cerebral. Reconocimiento de patrones. 105, 107381 (2020).

Artículo Google Académico

Moctezuma, LA & Molinas, M. Optimización multiobjetivo para la selección de canales EEG y detección precisa de intrusos en un sistema de identificación de sujetos basado en EEG. ciencia Rep. 10, 1–12 (2020).

Artículo Google Académico

Alyasseri, ZAA, Khader, AT, Al-Betar, MA & Alomari, OA Identificación de personas mediante selección de canales EEG con algoritmo de polinización de flores híbridas. Reconocimiento de patrones. 105, 107393 (2020).

Artículo Google Académico

Yıldırım, Ö., Baloglu, UB & Acharya, UR Un modelo de red neuronal convolucional profunda para la identificación automatizada de señales EEG anormales. Cómputo neuronal. aplicación 32, 15857–15868 (2020).

Artículo Google Académico

Wilaiprasitporn, T. et al. Identificación afectiva de personas basada en EEG utilizando el enfoque de aprendizaje profundo. Trans. IEEE. cognición desarrollo sist. 12, 486–496 (2019).

Artículo Google Académico

Özdenizci, O., Wang, Y., Koike-Akino, T. & Erdoğmuş, D. Aprendizaje profundo adversario en biometría EEG. Proceso de señal IEEE. Letón. 26, 710–714 (2019).

Artículo ANUNCIOS Google Académico

Vaswani, A. et al. La atención es todo lo que necesitas. En Avances en Sistemas de Procesamiento de Información Neural, vol. 30 (2017).

Dosovitskiy, A. et al. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. preimpresión de arXiv arXiv:2010.11929 (2020).

Liu, Z. et al. Swin transformer: Transformador de visión jerárquica utilizando ventanas desplazadas. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial 10012–10022 (2021).

Arjun, A., Rajpoot, AS & Panicker, MR Introducción al mecanismo de atención para señales EEG: Reconocimiento de emociones con transformadores de visión. En 2021, 43.ª Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC) 5723–5726 (IEEE, 2021).

Lee, Y.-E. & Lee, S.-H. EEG-transformador: autoatención de la arquitectura del transformador para decodificar EEG del habla imaginada. En 2022, 10.ª Conferencia internacional de invierno sobre interfaz cerebro-computadora (BCI) 1–4 (IEEE, 2022).

Tao, Y. et al. Transformador cerrado para decodificar señales EEG del cerebro humano. En 2021 43.ª Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC) 125–130 (IEEE, 2021).

Song, Y., Jia, X., Yang, L. y Xie, L. Aprendizaje de características espacio-temporales basado en transformadores para la decodificación de EEG. preimpresión de arXiv arXiv:2106.11170 (2021).

Kostas, D., Aroca-Ouellette, S. & Rudzicz, F. Bendr: uso de transformadores y una tarea de aprendizaje autosupervisada contrastiva para aprender de cantidades masivas de datos de EEG. Frente. Tararear. Neurosci. 15, 1–15 (2021).

Artículo Google Académico

Bagchi, S. & Bathula, DR EEG-convtransformer para la clasificación de estímulos visuales basada en EEG de prueba única. Reconocimiento de patrones. 129, 108757 (2022).

Artículo Google Académico

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones 770–778 (2016).

Ba, JL, Kiros, JR & Hinton, GE Normalización de capas. preimpresión de arXiv arXiv:1607.06450 (2016).

Goldberger, AL et al. Physiobank, fisiotoolkit y fisionet: componentes de un nuevo recurso de investigación para señales fisiológicas complejas. Circulación 101, e215–e220 (2000).

CAS PubMed Google Académico

Schalk, G., McFarland, DJ, Hinterberger, T., Birbaumer, N. & Wolpaw, JR BCI 2000: Un sistema de interfaz cerebro-computadora (BCI) de propósito general. Trans. IEEE. biomedicina Ing. 51, 1034–1043 (2004).

Artículo Google Académico

Wang, M., El-Fiqi, H., Hu, J. & Abbass, HA Redes neuronales convolucionales que utilizan conectividad funcional dinámica para la identificación de personas basada en EEG en diversos estados humanos. Trans. IEEE. información Seguridad Forense. 14, 3259–3272 (2019).

Artículo Google Académico

Schons, T., Moreira, GJ, Silva, PH, Coelho, VN & Luz, EJ Red convolucional para biometría basada en EEG. En Congreso Iberoamericano de Reconocimiento de Patrones, 601–608 (Springer, 2017).

Park, N. & Kim, S. ¿Cómo funcionan los transformadores de visión? preimpresión de arXiv arXiv:2202.06709 (2022).

Loshchilov, I. y Hutter, F. Regularización de la disminución del peso desacoplada. preimpresión de arXiv arXiv:1711.05101 (2017).

Wu , Z. , Liu , Z. , Lin , J. , Lin , Y. & Han , S. Transformador ligero con atención de largo y corto alcance . preimpresión de arXiv arXiv:2004.11886 (2020).

Wang, Y. et al. Atención en evolución con circunvoluciones residuales. En Conferencia internacional sobre aprendizaje automático 10971–10980 (PMLR, 2021).

Armonía, T. et al. Actividad delta EEG: Un indicador de la atención al procesamiento interno durante la realización de tareas mentales. En t. J. Psicofisiología. 24, 161–171 (1996).

Artículo CAS Google Académico

Jann, K., Koenig, T., Dierks, T., Boesch, C. y Federspiel, A. Asociación de la frecuencia alfa del EEG en estado de reposo individual y el flujo sanguíneo cerebral. Neuroimagen 51, 365–372 (2010).

Artículo Google Académico

McFarland, DJ, Miner, LA, Vaughan, TM & Wolpaw, JR Mu y topografías de ritmo beta durante la imaginería motora y los movimientos reales. Cerebro Topogr. 12, 177–186 (2000).

Artículo CAS Google Académico

Descargar referencias

Estos autores contribuyeron por igual: Yang Du, Yongling Xu y Xiaoan Wang.

Centro de Big Data, Hospital Nanfang, Universidad Médica del Sur, Guangzhou, 510515, China

Yang Du, Li Liu y Pengcheng Ma

Laboratorio de investigación Brainup, Naolu Technology Co., Ltd., Pekín, 100124, China

Yongling Xu y Xiaoan Wang

También puede buscar este autor en PubMed Google Scholar

YD e YX propusieron el método, realizaron los experimentos y escribieron el manuscrito. XW, LL y PM brindaron orientación sobre el experimento y revisaron el manuscrito.

Correspondencia a Xiaoan Wang, Li Liu o Pengcheng Ma.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Du, Y., Xu, Y., Wang, X. et al. Transformador EEG espacio-temporal para identificación de personas. Informe científico 12, 14378 (2022). https://doi.org/10.1038/s41598-022-18502-3

Descargar cita

Recibido: 11 Abril 2022

Aceptado: 12 de agosto de 2022

Publicado: 23 agosto 2022

DOI: https://doi.org/10.1038/s41598-022-18502-3

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

Noticias