banner

Noticias

Oct 25, 2023

Computadora de depósito físico Hopf para reconocimiento de sonido reconfigurable

Scientific Reports volumen 13, Número de artículo: 8719 (2023) Citar este artículo

271 Accesos

3 Altmetric

Detalles de métricas

El oscilador Hopf es un oscilador no lineal que exhibe un movimiento de ciclo límite. Esta computadora de reservorio utiliza la naturaleza vibratoria del oscilador, lo que la convierte en una candidata ideal para tareas reconfigurables de reconocimiento de sonido. En este documento, se demuestran sistemáticamente las capacidades de la computadora del yacimiento Hopf que realiza el reconocimiento de sonido. Este trabajo muestra que la computadora del yacimiento Hopf puede ofrecer una precisión de reconocimiento de sonido superior en comparación con los enfoques heredados (por ejemplo, un enfoque de aprendizaje automático + espectro Mel). Más importante aún, la computadora del reservorio Hopf que funciona como un sistema de reconocimiento de sonido no requiere preprocesamiento de audio y tiene una configuración muy simple al mismo tiempo que ofrece un alto grado de reconfigurabilidad. Estas características allanan el camino para aplicar la computación de reservorios físicos para el reconocimiento de sonido en dispositivos periféricos de baja potencia.

Existen métodos omnipresentes de clasificación de señales de audio, en particular para el reconocimiento de voz1,2. Sin embargo, el aprendizaje automático adolece de varios inconvenientes que dificultan su amplia difusión en el Internet de las Cosas (IoT)3. En primer lugar, el aprendizaje automático, especialmente las redes neuronales profundas (DNN), se basan en la infraestructura de la nube para realizar cálculos masivos tanto para el entrenamiento como para la inferencia de modelos. Los modelos de aprendizaje profundo de última generación (SOTA), como GPT-3, pueden tener más de 175 000 millones de parámetros y requisitos de capacitación de 3,14 \(\times\) \(10^{23}\) FLOPS (operaciones flotantes por segundo)4,5. El entrenamiento del modelo de transcripción de voz de SOTA, Whisper, utilizó una biblioteca de palabras que tenía tantas palabras como hablaría una persona continuamente durante 77 años6. Ninguno de estos requisitos técnicos mencionados podría cumplirse con ningún dispositivo de borde para IoT; por lo tanto, la infraestructura de la nube es una necesidad para las tareas de DNN. En segundo lugar, la dependencia de la computación en la nube para el aprendizaje automático plantea grandes riesgos de seguridad y privacidad. Más del 60 % de las infracciones de seguridad anteriores ocurrieron durante la comunicación de datos sin procesar entre la nube y el perímetro para el aprendizaje automático7. Además, cada incumplimiento conlleva una pérdida promedio de $4,24 millones, y este número crece continuamente8. La preocupación por la privacidad genera desconfianza entre los usuarios de dispositivos inteligentes e impulsa el abandono de los dispositivos inteligentes9,10. En tercer lugar, el impacto ambiental de implementar DNN a través de una infraestructura en la nube a menudo se pasa por alto, pero no se puede pasar por alto. Entrenar un modelo de transformador con 213 millones de parámetros generará emisiones de dióxido de carbono equivalentes a cuatro veces las de un vehículo de un fabricante estadounidense durante toda su vida útil11. Por lo tanto, la próxima generación de dispositivos IoT inteligentes debe poseer suficiente poder computacional para operar el aprendizaje automático o incluso el aprendizaje profundo en el borde.

Entre los esfuerzos para llevar el aprendizaje automático a los dispositivos perimetrales, la computación de reservorios, especialmente la computación de reservorios físicos, ha generado un éxito temprano en las últimas dos décadas. A partir de los conceptos de máquinas de estado líquido y redes de estado de eco, los investigadores demostraron que las ondas inducidas por el sonido en la superficie de un balde de agua podrían usarse para realizar el reconocimiento de señales de audio12. En pocas palabras, la computación de reservorios explota la no linealidad intrínseca de un sistema físico para replicar el proceso de conexiones nodales en una red neuronal para extraer características de las señales de series temporales para la percepción de la máquina13,14. La computación de reservorio realiza cálculos directamente de manera analógica mediante el uso del sistema físico, lo que elimina en gran medida la necesidad de almacenamiento de datos, organización y percepción de aprendizaje automático por separado. En particular, la computación de reservorios es naturalmente adecuada para tareas de procesamiento de audio, que son un subconjunto de señales de series temporales.

Los investigadores han explorado muchos sistemas físicos para que funcionen como ordenadores de reserva para el procesamiento de señales temporales. Estos sistemas incluyen la matriz de puertas programables en campo (FPGA)15, reacciones químicas16, memristores17, uniones de túnel superparamagnéticas18, espintrónica19, atenuación de longitud de onda de láseres en medios especiales20, MEMS (sistemas microelectromecánicos)21 y otros13,22. Aunque estos estudios han demostrado que la computación de reservorios podría manejar el procesamiento de señales de audio, el sistema físico para la computación suele ser muy engorroso20, y todos requieren el preprocesamiento de los clips de audio originales utilizando métodos como el espectro Mel, que cancela en gran medida los beneficios de reducir la requisitos computacionales del aprendizaje automático a través de la computación de reservorios. Más importante aún, para aumentar el poder de cómputo, las técnicas convencionales de computación de yacimientos utilizan retroalimentación retardada en el tiempo lograda mediante una conversión de digital a analógico23, y la retroalimentación retardada en el tiempo dificultará la velocidad de procesamiento de la computación de yacimientos mientras aumenta drásticamente el consumo de energía para la computación. . Sugerimos que el rendimiento menos que satisfactorio de la computación de reservorios físicos se debe en gran medida a la potencia computacional insuficiente de los sistemas informáticos elegidos por los trabajos anteriores.

Recientemente, hemos descubierto que el oscilador Hopf, que es un modelo común para muchos procesos físicos, tiene suficiente poder computacional para llevar a cabo el aprendizaje automático. Aunque este es un sistema físico muy simple, la computación se puede lograr sin la necesidad de manejo de datos adicional, retroalimentación retardada o componentes eléctricos auxiliares24,25,26,27. Curiosamente, la activación no lineal de una red neuronal a veces también puede ser capturada por el reservorio físico, lo que puede simplificar aún más la arquitectura de la computadora del reservorio físico (por ejemplo, una computadora del reservorio físico del actuador de aleación con memoria de forma28). El rendimiento de la computadora del reservorio del oscilador Hopf en un conjunto de tareas de evaluación comparativa (p. ej., tareas lógicas, emulación de señales de series temporales y tareas de predicción) es excepcional en comparación con reservorios físicos mucho más complejos.

Este documento es una extensión del trabajo anterior para demostrar aún más las capacidades sobresalientes de la computadora del reservorio Hopf para tareas de reconocimiento de señales de audio. El oscilador Hopf actúa como un filtro no lineal, pero también una parte de la tarea computacional se descarga en la computadora del reservorio físico Hopf. Basado en nuestro trabajo anterior, el oscilador Hopf realiza cálculos y almacena información en sus estados dinámicos24,25. Fundamentalmente, la respuesta no lineal del oscilador es un tipo de computación no tradicional, que se desbloquea a través del aprendizaje automático. Además, los estados dinámicos del oscilador actúan como un tipo de memoria local, ya que no se introdujo memoria adicional a través de las líneas de retardo. En este trabajo previo sobre el oscilador Hopf, se entrenó una sola capa de lectura para realizar una batería de tareas. Aquí, la capa de lectura única se reemplaza con una red neuronal relativamente poco profunda para tareas más difíciles, como el reconocimiento de sonido. Estos resultados apuntan a la eficacia del uso de este tipo de computadora de reserva para la computación perimetral, lo que podría allanar el camino para obtener inteligencia artificial perimetral y aprendizaje profundo descentralizado en un futuro previsible.

El oscilador de Hopf forzado se representa en la ecuación. (1)27,29:

En las ecuaciones anteriores, x e y se refieren al primer y segundo estado del oscilador de Hopf, respectivamente. El término \(\omega _0\) es la frecuencia de resonancia del oscilador Hopf. El parámetro \(\mu\) afecta el radio del movimiento del ciclo límite. Por ejemplo, sin forzamiento externo, el oscilador Hopf tendría un ciclo límite de radio \(\mu\), y oscilaría a una frecuencia de \(\omega _0\). Este parámetro también se correlaciona vagamente con el factor de calidad del oscilador. A es la amplitud de una fuerza sinusoidal.

Para que el oscilador clasifique las señales de audio, se construye una señal forzada externa que contiene la señal de audio, a(t), que se muestra en la Ec. (2); esto luego se usa como entrada para el oscilador Hopf. El oscilador de Hopf modificado como depósito está representado por las Ecs. (3) y (4):

La señal externa, f(t), se compone de una compensación de CC y la señal de audio, a(t). La compensación de CC garantiza que el parámetro de radio no sea negativo. Esta señal externa se inyecta tanto en el parámetro de radio, \(\mu\), como en la sinusoide, \(A\sin (\Omega t)\). El oscilador Hopf responde dinámicamente a la señal de audio y el estado x corresponde a las funciones de audio para la tarea de clasificación de audio de aprendizaje automático. El estado y, aunque no se usa explícitamente en la tarea de clasificación (como se muestra en la Fig. 1), probablemente almacena información y ayuda en la tarea computacional. A diferencia de la forma original de la computadora del reservorio del oscilador Hopf, usamos las oscilaciones Hopf para extraer características de audio para la clasificación en lugar de usar directamente las dos salidas de estado para la predicción de señales de series temporales24. Como tal, se realizan varios cambios en el esquema computacional de la computadora del reservorio del oscilador Hopf. En primer lugar, esta formulación del embalse no incluye el procedimiento típico de multiplicación de entradas con función de enmascaramiento, ya que no incluye función de enmascaramiento. La computación de reservorios convencional utiliza una máscara preestablecida que multiplica las salidas del reservorio para crear neuronas en el sistema del reservorio. El entrenamiento de la máscara equivale a actualizar los parámetros cuando se entrenan las redes neuronales realizadas digitalmente. Sin embargo, este método es costoso en términos de memoria e ineficaz para el procesamiento de señales de audio, ya que la longitud de la máscara debería ser suficiente para cubrir la longitud del clip de audio y las conexiones nodales necesarias para la clasificación de la señal. En lugar de máscaras de entrenamiento, utilizamos una lectura de red neuronal convolucional de múltiples capas más eficiente para alimentar directamente las salidas del depósito y entrenar las conexiones entre cada capa como parámetros. En segundo lugar, el ruido gaussiano no se multiplica con la señal de audio, ya que las señales de audio ya tienen ruido de fondo. Esta máscara de ruido se usó en un estudio informático anterior del yacimiento Hopf para resaltar su robustez24. En tercer lugar, en lugar de usar un pseudoperíodo para guiar el entrenamiento de la lectura de aprendizaje automático, usamos la cantidad de muestras recopiladas para la clasificación para controlar las conexiones nodales dentro de cada punto de característica recopilado generado a partir del procesamiento de datos de audio 1D del reservorio. N nodos virtuales significa que para cada punto de muestreo del audio original, el reservorio generará \(N-1\) conexiones nodales en 1D para cada estado del reservorio para su clasificación. Por ejemplo, con N nodos virtuales, un punto de datos de audio muestreado es procesado por el nodo físico (es decir, x en la Fig. 1) \(N-1\) veces, lo que crea N puntos de características a partir de una muestra de audio y \(N -1\) conexiones nodales en estos N puntos característicos. En el documento actual, establecemos N en 100 para el procesamiento de audio. Este método dificulta la velocidad de muestreo de las señales de audio. Por lo tanto, volvemos a muestrear los datos de audio originales de resolución completa para asegurarnos de que realizamos los experimentos en un período de tiempo relativamente corto. Vale la pena señalar que la duración de los clips de audio para cada evento de clasificación construye efectivamente el pseudo-período en el contexto tradicional de la computación del reservorio a través de bucles de retroalimentación retardados en el tiempo (es decir, una duración fija del audio producirá un resultado de clasificación con detalles proporcionados más adelante). La eventual conexión nodal de la computadora del yacimiento Hopf y el manejo de la salida podría conceptualizarse como la Fig. 1.

Un esquema que muestra las conexiones nodales dentro de un oscilador Hopf para la computación de yacimientos. La señal original, f(t), se envía a los dos estados del oscilador (es decir, dos nodos físicos). Cada nodo físico genera N nodos virtuales en series temporales. Las capas de lectura digital (es decir, el algoritmo de aprendizaje automático) leerán n muestras del nodo x del oscilador (tenga en cuenta que solo usamos un nodo para la clasificación de audio en el presente documento). \(n_0\) corresponde al número de muestras de la señal de audio original, y N se refiere al número de nodos virtuales controlados por los mecanismos de lectura. Luego, la señal del depósito se envía a una red neuronal, que se indica con la flecha azul discontinua; esta red neuronal se describe en la Fig. 12. La lectura digital clasificará las n muestras correspondientes a un clip de audio en su clase.

Aquí, la computadora del yacimiento Hopf se usa para calcular mapas de características, con varios ejemplos representativos que se muestran en la Fig. 2. "VN #" se refiere al número de nodo virtual, y la escala de tiempo para el otro eje se define de tal manera que el tamaño del paso es el recíproco de la tasa de muestreo. El valor del mapa de características se vuelve a escalar de 0 a 1. Las capas convolucionales consecutivas, seguidas de la capa aplanada y las capas completamente conectadas que se muestran en la Fig. 12, construyen la lectura de aprendizaje automático para procesar las salidas de señal de audio del depósito, que es se describe con más detalle en la sección "Métodos". Tenga en cuenta que se aplica un enfoque similar en el reconocimiento de sonido urbano SOTA en dispositivos de borde30, aunque eliminamos el preprocesamiento computacionalmente costoso del espectrograma Mel al descargar la extracción de características a la computadora del reservorio. Más importante aún, nuestro enfoque podría usar un muestreo muy grueso (aquí se usaron 4000 Hz) en lugar del espectrograma Mel aplicado en 30 para capturar la granularidad de las señales de audio. En la siguiente sección se proporciona una comparación detallada para demostrar la extracción superior de características de la computadora del yacimiento Hopf.

Ejemplos de mapas de características generados por el oscilador Hopf correspondientes a diferentes eventos de audio. Cada clip de audio tiene una duración de 1 segundo muestreado a 4000 Hz. El eje x sigue el orden aritmético de los nodos virtuales, y el eje y es el tiempo. El reservorio está configurado para tener 100 nodos para la prueba. El valor de la escala de grises (de 0 a 1) de cada píxel corresponde a la intensidad de la señal de cada punto de datos (es decir, punto característico de la señal de audio). (a) Aire acondicionado. (b) Bocina de automóvil. c) Niños jugando. d) Perro ladrando. (e) Perforación. (f) Motor al ralentí. (g) Disparo. (h) Martillo neumático. (i) Sirena. j) Música callejera.

Primero, presentamos los resultados de la computadora del embalse de Hopf para una tarea de reconocimiento de sonido urbano. Como se muestra en la Fig. 3 en la columna de la izquierda, las características de audio de las operaciones del espectro Mel (tal como se calcula en los clips de audio con una frecuencia de muestreo de 44,1 kHz) muestran diferencias drásticas entre los tres ejemplos; usando el ejemplo superior como referencia, la distancia euclidiana puntual promedio entre la referencia y los otros dos es superior a 25. En comparación, las características de audio del Hopf RC se muestran en la columna derecha de la Fig. 3; los tres ejemplos tienen una similitud mucho mayor para estos tres ejemplos (p. ej., distancia euclidiana < 12). La distancia euclidiana promedio para las muestras entre clases es:

donde c(x, y) es la amplitud de la computadora del yacimiento Hopf en el tiempo x y el número de nodo virtual y. Aquí, i está indexado sobre la clase I, j está indexado sobre la clase J, \(\alpha\) está indexado sobre todos los valores de x, y \(\beta\) está indexado sobre todos los valores de y. Las distancias euclidianas promedio se presentan en la Fig. 4. La diagonal tiene el valor mínimo para cada columna y fila, lo que demuestra que el oscilador de Hopf es capaz de separar las clases, incluso sin la red neuronal.

El espectro Mel se compara con el Hopf RC para la tarea de reconocimiento de sonido urbano. De arriba hacia abajo, se presentan tres ejemplos de la clase sirena. En la columna de la izquierda, se muestra la energía del espectro Mel, donde el eje horizontal es el tiempo y el eje vertical es la frecuencia. La operación del espectro Mel se realiza sobre muestras de cuatro segundos de duración con una frecuencia de muestreo de 44,1 kHz. El número total de bandas de frecuencia se establece en 100 y el paso de tiempo se establece en 0,025 segundos. En la columna de la derecha, las características de audio extraídas de la computadora del reservorio Hopf para las mismas muestras, de modo que cada clip de audio de 1 segundo se reduce a 4000 Hz y la cantidad de nodos virtuales se establece en 100. En particular, los resultados de Mel y Hopf Los resultados del yacimiento no se parecen entre sí, pero la información transmitida por cada proceso es internamente consistente, lo que se destaca por el desempeño del clasificador.

Las distancias euclidianas promedio se presentan en esta matriz simétrica para las diez clases de sonido urbano. Las distancias euclidianas promedio se calcularon entre todas las muestras dentro de una sola clase (elementos diagonales) y entre todas las muestras de dos clases (elementos fuera de la diagonal).

La robustez de la clasificación de audio también es de gran importancia para las aplicaciones del mundo real. Para resaltar esto, los resultados del espectro de Mel se comparan con los resultados de Hopf RC para tres niveles de ruido diferentes. Usando el ejemplo en la fila superior de la Fig. 3, se agrega ruido blanco a la señal original para crear diferentes relaciones señal-ruido (SNR); las características de audio de estas tres nuevas señales se calculan con el espectro Mel (usando una frecuencia de muestreo de audio de 44,1 kHz) y la computadora del reservorio Hopf (usando una frecuencia de muestreo de audio de 4000 Hz). Las funciones de audio de salida se muestran en la Fig. 5. Se muestra claramente que las funciones de audio basadas en el espectro de Mel pierden información de baja frecuencia cuando la SNR se reduce a 20, mientras que las funciones generadas por la computadora del yacimiento Hopf mantienen una estructura similar con el contraparte de audio original, con la distancia euclidiana < 5 para una SNR de 20.

La robustez de la extracción de audio Hopf RC se compara con el espectro Mel para varias relaciones señal-ruido (SNR). Para la visualización, el ejemplo de sirena que se muestra en la parte superior de la Fig. 3 se usa con diferentes niveles de ruido. De arriba hacia abajo, se agregaron tres cantidades diferentes de ruido al ejemplo de audio de sirena original. En la columna de la izquierda, se muestra la energía del espectro Mel. Tenga en cuenta que el resultado comienza a perder información de baja frecuencia cuando la SNR cae a 20. En la columna de la derecha, se muestran las características de audio que se extraen con Hopf RC. Tenga en cuenta que el resultado sigue siendo prácticamente el mismo para todos los niveles de ruido, incluso cuando la SNR es igual a 20.

La matriz de confusión para la tarea de reconocimiento de sonido urbano se muestra en la Fig. 6. El enfoque de reconocimiento de audio propuesto basado en la computadora del embalse de Hopf tiene una precisión del 96,2 %. Esto representa una mejora del 10 % en la precisión en comparación con 30, con una reducción de > 94 % de las FLOPS (operaciones flotantes por segundo) para la lectura de alta frecuencia de muestreo y el cálculo del espectro Mel y \(\sim {90\%}\) de la piezas de audio para la formación.

Para la tarea de reconocimiento de sonido urbano, la matriz de confusión se presenta con la precisión de reconocimiento etiquetada para los diez eventos de audio diferentes. Tenga en cuenta que las etiquetas de clase en esta figura son las mismas que las etiquetas de clase de la Fig. 2.

Utilizando el modelo de aprendizaje automático entrenado a partir del caso de prueba anterior (es decir, la tarea de reconocimiento de sonido urbano) como referencia, probamos el conjunto de datos de comando de voz de Qualcomm para demostrar la reconfigurabilidad del sistema de reconocimiento de audio por computadora del embalse de Hopf. En este experimento, reducimos deliberadamente el número de épocas a 20 y congelamos la porción de CNN del modelo de aprendizaje automático para reconfigurar el proceso del sistema de reconocimiento de audio de la tarea de detección de sonido urbano a una tarea de comando de voz. En la parte izquierda de la Fig. 7, se muestran las características de audio representativas de las cuatro clases, que tienen diferencias significativas en comparación con las características de los eventos sonoros urbanos (Fig. 2). El reconocimiento de audio produce una precisión > 99 %, con la matriz de confusión representada en la parte derecha de la Fig. 7. Tenga en cuenta que la cantidad de parámetros entrenados para este experimento es de aproximadamente 35 000, lo que representa aproximadamente 300 KB de memoria dinámica para 8 bits. entrada con un tamaño de lote de 531,32, lo que demuestra la viabilidad de ejecutar el entrenamiento de la lectura de aprendizaje automático en dispositivos de borde de bajo nivel que consumen el nivel de energía de la batería Li-Po.

Resumen de los resultados de la computadora del reservorio Hopf para la tarea de comando de voz de Qualcomm. Izquierda: Ejemplos de mapas de características de diferentes palabras de activación generadas por la computadora del yacimiento Hopf. Derecha: La matriz de confusión del sistema de reconocimiento de sonido propuesto que procesa las palabras de activación de Qualcomm. Cada etiqueta corresponde a: (a) "Hola, Galaxy", (b) "Hola, Lumia", (c) "Hola, Snapdragon" y (d) "Hola, Android".

El conjunto de datos de dígitos hablados se utiliza para comparar el rendimiento de la computadora del reservorio Hopf para el reconocimiento de audio con otros reservorios (p. ej., 15, 16, 17, 18, 19, 20, 21, 22). Como se muestra en la Fig. 8, la computadora del yacimiento Hopf produce una precisión de aproximadamente el 97% para la tarea de clasificación de dígitos hablados. Este resultado conserva la precisión de reconocimiento de última generación en este conjunto de datos mientras usa solo un dispositivo físico (es decir, un circuito analógico consolidado) y dos nodos físicos (estados x e y). A modo de comparación, el reservorio de mejor rendimiento17 empleó 10 memristores y preprocesamiento de los clips de audio originales para lograr una precisión similar. Sugerimos que la naturaleza vibratoria de nuestro reservorio contribuye en gran medida a la simplicidad del sistema de detección de eventos de sonido propuesto, y la activación del reservorio mediante señales sinusoidales aumenta la extracción de características de la señal de audio mediante oscilaciones de Hopf (los detalles se describen más adelante).

Resumen de los resultados de la computadora del reservorio Hopf que realiza una tarea de reconocimiento de dígitos hablados. La matriz de confusión del sistema de reconocimiento de sonido propuesto que procesa el conjunto de datos de dígitos hablados con la fuerza de activación original y la tangente hiperbólica inversa antes de las lecturas de aprendizaje automático.

Además, aumentamos la fuerza de la señal de activación (término A en la ecuación 1) y descartamos la activación de la tangente hiperbólica inversa (ecuación 6) antes de la lectura de aprendizaje automático. Los resultados arrojados, que se muestran en la Fig. 9, tienen una precisión del 96 % en comparación con el caso que usa la ecuación. (6) antes de enviar el estado x a la lectura de aprendizaje automático. Esto sugiere que esta computadora de reservorio Hopf puede reconfigurarse mediante su lectura digital, de manera similar a otras computadoras de reservorio físico. Además, la potencia computacional del oscilador Hopf también podría mejorarse drásticamente cambiando las condiciones físicas internas del oscilador.

Resumen de los resultados de la computadora del reservorio Hopf que realiza una tarea de reconocimiento de dígitos hablados. La matriz de confusión del sistema de reconocimiento de sonido propuesto que procesa el conjunto de datos de dígitos hablados con un aumento de 10 veces en la fuerza de activación y sin tangente hiperbólica inversa antes de las lecturas de aprendizaje automático.

Esta arquitectura informática de reservorio físico Hopf se propone para aplicaciones informáticas de borde del mundo real, como el reconocimiento de audio. Aunque el reconocimiento de voz es una tarea relativamente simple para las redes neuronales profundas que se ejecutan en la nube, es una tarea difícil para las computadoras perimetrales debido a su poder computacional limitado. La arquitectura propuesta utiliza efectivamente las fortalezas de los dispositivos tanto analógicos como digitales empalmando un oscilador analógico a una red neuronal digital. Además, el oscilador Hopf se puede fabricar fácilmente a partir de componentes eléctricos disponibles comercialmente.

La arquitectura de la computadora del reservorio físico de Hopf discutida en este documento tiene varias diferencias claras con respecto a otras computadoras similares del reservorio físico. Lo más destacado es que este oscilador Hopf está emparejado con una red neuronal en lugar de usar una regresión de cresta simple. Al aumentar la complejidad de la red neuronal, la computadora del reservorio físico Hopf puede realizar tareas más difíciles. Como la red neuronal es sencilla, se puede implementar fácilmente. La arquitectura empleada en este documento no utiliza ningún procesamiento previo de los datos de audio originales, lo que reduce significativamente los costos computacionales de la tarea de reconocimiento. En su lugar, sigue la señal de activación para construir los mapas de características mediante la remodelación de la matriz y el tanh inverso. Por lo general, el espectro de Mel se utiliza para este tipo de tareas, que pueden representar más de la mitad de la carga computacional33. La mayoría de las computadoras de reservorio físico basadas en osciladores no lineales deben usar retroalimentación retardada en el tiempo, lo cual es engorroso ya que requeriría convertidores de digital a analógico y de analógico a digital. Sin embargo, el oscilador de Hopf es capaz de almacenar suficiente información en sus estados dinámicos para evitar esto24,25. Además, la arquitectura presentada es resistente al ruido debido a la no linealidad del oscilador Hopf, que es importante para las aplicaciones de procesamiento de audio del mundo real.

La arquitectura propuesta tiene varias ventajas clave. Primero, la carga computacional para el enfoque propuesto se reduce significativamente. Los cálculos involucrados en la construcción de los mapas de características son la remodelación de la matriz, la normalización y la tangente inversa. Estas operaciones solo consumen alrededor del 10 % de la potencia computacional en comparación con el espectrograma Mel para una frecuencia de muestreo de 4000 Hz. Una estimación de la carga computacional llega a la conclusión de que operaciones similares en dispositivos de borde Cortex-M4 (Arm, San José, California) producen solo alrededor de 5 ms de la latencia que ejecuta este algoritmo. En segundo lugar, el método propuesto se puede combinar con diferentes modelos de aprendizaje automático. Aunque el documento utiliza la CNN como lectura de aprendizaje automático, el mapa de características producido por el método propuesto puede reemplazarse por métodos comunes de procesamiento de imágenes, incluidos, entre otros, transformador (34), índice de similitud de estructura (35), red neuronal de avance ( 36) y la distancia euclidiana (37), etc. En tercer lugar, en comparación con el espectrograma de Mel, los ciclos límite implementados físicamente pueden generar características que son sólidas tanto para el ruido como para la baja calidad de audio. Vale la pena señalar que el audio utilizado para los experimentos es una versión reducida, que es aproximadamente la mitad de la frecuencia de muestreo utilizada por el enfoque de Mel + CNN, al tiempo que logra una precisión de reconocimiento de audio que es aproximadamente un 10 % mayor. Como ejemplo de esta solidez, el mapa de características generado a partir del audio con ruido adicional (Fig. 5) conserva sus características distintivas incluso con una relación señal/ruido extremadamente baja (< 20).

En este artículo, presentamos los resultados del reconocimiento de señales de sonido utilizando tecnología de computación de reservorio que consiste en un oscilador Hopf24,25. En lugar de emplear un preprocesamiento computacionalmente costoso (p. ej., el espectro Mel) comúnmente utilizado en otros estudios15,17,20,30, tomamos directamente las salidas del circuito Hopf para procesar la señal de audio normalizada para el reconocimiento de aprendizaje automático. Anticipamos que esta computación de reservorio de Hopf se puede implementar directamente en los micrófonos para lograr un futuro procesamiento en el sensor.

En la sección "Resultados", demostramos sistemáticamente que nuestro enfoque de computación de embalses de Hopf produce una mejora del 10 % en la precisión en un reconocimiento de sonido urbano diverso de 10 clases en comparación con los resultados de vanguardia que utilizan dispositivos de borde30, mientras que usamos un sorprendentemente preprocesamiento simple simplemente normalizando la señal original. El reconocimiento de palabras de activación da como resultado una precisión > 99 % utilizando el algoritmo de aprendizaje automático de lectura exacta con solo volver a entrenar el MLP. Esto implica que la computadora del reservorio Hopf permitirá la inferencia y la reconfiguración en el borde para el sistema de reconocimiento de sonido. Además, en comparación con otros sistemas informáticos de yacimientos (p. ej., 15, 16, 17, 22), el conjunto de datos de dígitos hablados produce un rendimiento superior sin necesidad de utilizar un preprocesamiento complejo, varios dispositivos físicos o funciones de máscara; Además, también hemos llevado a cabo nuestros experimentos de evaluación comparativa en conjuntos de datos mucho más realistas (es decir, el conjunto de datos de reconocimiento de sonido urbano de 10 clases y el conjunto de datos de palabras de vigilia de 4 clases). Demostramos un rendimiento mejorado del procesamiento de la señal de audio al cambiar la intensidad de la señal de activación del oscilador Hopf, lo que implica que hay más grados de libertad para reconfigurar las computadoras del reservorio físico en comparación con otras implementaciones del reservorio.

Por último, elaboramos cuidadosamente los algoritmos y el preprocesamiento de los datos para las tareas de reconocimiento de sonido a fin de mantener el consumo total de energía, incluida la lectura digital, en menos de 1 mW según las operaciones FLOPS y la frecuencia de muestreo analógica. La carga computacional, que utiliza menos de 700 clips de sonido de un conjunto de datos de 10 clases para entrenar modelos de aprendizaje automático, está muy por debajo de los recursos computacionales que poseen los dispositivos electrónicos de consumo. Como tal, los dispositivos de reconocimiento de sonido que utilizan una computadora de depósito Hopf podrían tener una integración sin esfuerzo con dispositivos con aumentos de carga computacional imposibles de rastrear.

Tres elementos juegan un papel importante en el reconocimiento de la señal de audio. El sistema de ciclo límite crea una señal de oscilación en el dominio temporal con una forma sinusoidal, que convoluciona continuamente con la señal de audio entrante. Esta convolución recuerda a la transformada de Fourier, y el oscilador Hopf genera patrones únicos para el reconocimiento de audio (p. ej., Fig. 2). Curiosamente, este proceso replica en gran medida el proceso de la cóclea al extraer las características de la señal de sonido perceptibles por las neuronas. La oscilación no lineal del oscilador Hopf en la dirección temporal crea conexiones nodales de la computadora del reservorio, correspondientes a las conexiones neuronales en DNN. Además, la no linealidad del oscilador Hopf hace que responda de manera diferente a las señales que poseen varios rasgos característicos del audio en una forma de banda ancha, lo que produce una clara separación de los rasgos (Figs. 2 y 7a). Cabe señalar que algunos estudios recientes38, 39 han demostrado que la cóclea y sus neuronas directamente conectadas crean un sistema de ciclo límite utilizando las señales de audio anteriores como activación para mejorar dinámicamente el rendimiento de la cóclea al realizar la extracción de características de la señal de audio. El modelo físico del oído interno se puede modelar como un oscilador Hopf con un bucle de retroalimentación retardado en el tiempo utilizando las señales de instantes de tiempo anteriores para activar las oscilaciones del ciclo límite. El reconocimiento de la señal de audio en realidad ocurre en el oído interno en lugar del cerebro. Una extensión futura interesante de este trabajo es explorar diferentes señales de activación para crear un oído artificial, que sea capaz de reconocer audio en la membrana. Mientras tanto, los dos estados del oscilador Hopf se afectan entre sí con un retraso de tiempo, lo que mejora los efectos de memoria esenciales para el procesamiento de señales de series temporales.

Las ventajas únicas de la computadora de reservorio Hopf demostradas en este documento allanan el camino para la próxima generación de dispositivos IoT inteligentes que explotan el poder computacional no utilizado en las redes de sensores. Específicamente, los mecanismos físicos que respaldan la computación del reservorio también ocurren en la membrana del micrófono con señales de activación cuidadosamente diseñadas38. Uno podría imaginar que los futuros micrófonos operen directamente el reconocimiento de señales de sonido utilizando mecanismos de sensores en lugar de plataformas de procesamiento dedicadas. Además, como se muestra en la Fig. 2, el mapa de características de las señales de sonido consiste en patrones únicos que son reconocidos por una red neuronal convolucional comúnmente utilizada para el procesamiento de señales visuales. Una extensión del presente trabajo explorará las correlaciones de mapas de características de señales de audio, mapas de características de señales visuales y otros tipos de características de datos de series temporales. Como tal, la computación de reservorios podría usarse como columna vertebral para el aprendizaje automático multimodal en paradigmas inteligentes de IoT, incluida la fusión de sensores, la combinación de señales de audio y video y el aprendizaje automático descentralizado. La cantidad extremadamente pequeña de datos de entrenamiento requeridos para la operación de aprendizaje automático y la clara separación de funciones descrita en la sección "Resultados" podría ofrecer resultados sorprendentemente satisfactorios, lo cual es esencial para muchos casos de uso sin el lujo de tamaños ilimitados de conjuntos de datos (por ejemplo, identificación de usuario suave ) o con entornos ruidosos (p. ej., una mezcla de señales diferentes). En la Fig. 10 se muestra un ejemplo: una señal de audio de ocho segundos de duración que consta de múltiples señales diferentes (es decir, bocina de automóvil, perforación y sirena) se usa para demostrar la prueba de concepto de la computadora del yacimiento Hopf en el procesamiento de señales mixtas. Los primeros cuatro segundos del clip de audio solo tienen bocina de automóvil y sonido de perforación. Durante los últimos cuatro segundos, el sonido de la sirena se añade con mayor amplitud. Como se muestra en la figura, las características de audio generadas por la computadora del yacimiento Hopf tienen una clase claramente dominante en la segunda mitad de los datos y muestran una correlación visualmente alta con las características de audio generadas por un sonido de sirena limpio con la misma computadora del yacimiento Hopf (una Distancia euclidiana inferior a 8). Anticipamos que un algoritmo de coincidencia de patrones que se origine en aplicaciones de visión por computadora podría emplearse en este tipo de separación y procesamiento de eventos de audio.

Una prueba de resistencia al ruido utilizando características de audio generadas a partir de la tarea de reconocimiento de sonido urbano. Durante los primeros cuatro segundos de este clip de ocho segundos, se mezclan los sonidos de bocinas de autos y perforaciones, y los últimos cuatro segundos contienen el sonido de sirena con una amplitud alta (dos veces más grande en comparación con otras dos clases de audio) que se agrega a los datos mezclados. . Como se muestra en la figura, los últimos cuatro segundos de las funciones de audio muestran una gran similitud en comparación con el sonido de la sirena de referencia.

La implementación de esta red neuronal convolucional adopta el mismo enfoque de aprendizaje automático propuesto por30. Usando la misma tarea de reconocimiento de sonido urbano, esto permite una comparación directa de las características extraídas de la computadora del reservorio físico, así como la técnica de espectrograma que normalmente se aplica. Utilizando la misma lectura de aprendizaje automático, pero sin un preprocesamiento computacionalmente costoso del audio, la arquitectura informática del depósito físico empleada en este documento logró una mejora de precisión del 10 % en comparación con30. En aplicaciones realistas para Internet de las cosas, este método de aprendizaje automático se puede aplicar utilizando procesadores neuronales dedicados, como Syntiant ND101. Este chip en particular podría implementar aproximadamente 60 000 núcleos neuronales, muy por encima del requisito del modelo de aprendizaje automático utilizado en el documento (\(\sim\)40 000 núcleos neuronales). Como un enfoque alternativo, las funciones generadas a partir de la computadora del depósito podrían diseñarse aún más para comprimir la cantidad de datos para el reconocimiento de audio, de modo que los modelos puedan implementarse en procesadores de borde de bajo nivel.

Todavía existen límites en el método de cálculo de yacimientos utilizando el oscilador Hopf en su forma actual. Primero, el reconocimiento de eventos de sonido de alta precisión requiere muchos nodos virtuales para generar diversas funciones para la percepción de la máquina. Sin embargo, aumentar los nodos virtuales conduce a un crecimiento exponencial de la frecuencia de muestreo para leer datos de audio de alta calidad. Estamos buscando activamente soluciones para separar las funciones de audio de la señal original para el reconocimiento y la grabación, lo que podría disminuir la frecuencia de muestreo requerida. En segundo lugar, el depósito físico basado en el circuito actual separa el proceso de mezcla de señales y activación del circuito. Es necesario rediseñar el circuito para simplificar la lectura de la señal para la futura implementación del sistema. Sin embargo, la última versión del depósito Hopf que utiliza MEMS resolverá este problema, ya que la computación se realizará en los mecanismos de detección de audio. Por último, el procesamiento de la señal todavía se basa en una lectura digital. Aunque el algoritmo es notablemente simple, se necesita una unidad de microcontrolador. Anticipamos que la solución a corto plazo implementará el modelo de aprendizaje automático optimizado como firmware (consumiendo menos de 1 MB de memoria estática sin optimización y menos de 256 KB de memoria dinámica para entrenar modelos de aprendizaje automático actualizados). Un objetivo futuro debería ser el uso de un circuito analógico que pudiera detectar las señales de pico para el reconocimiento de audio (similar a las neuronas) para lograr una computadora completamente analógica en dispositivos periféricos40.

La computadora del reservorio físico de Hopf se realiza a través de un diseño de circuito patentado propuesto por24. Siguiendo el esquema dado en la Fig. 11, el circuito se implementa usando amplificadores operacionales TL082 y multiplicadores AD633. La señal de audio de entrada se normaliza primero al rango de \(-1\) a \(+1\) y se mezcla con la señal de forzamiento sinusoidal en MATLAB, luego se envía al circuito mediante un National Instrument (NI) cDAQ- Módulo de E/S de datos 9174. Las salidas del circuito, denominadas estados x e y del oscilador Hopf, se recopilan con una frecuencia de muestreo de \(10^5\) muestras/s por el mismo NI cDAQ-9174 para su posterior procesamiento de aprendizaje automático.

Un esquema de circuito simplificado de la computadora del yacimiento Hopf.

Se emplean tres conjuntos de datos en los experimentos de reconocimiento de sonido. Estos incluyen reconocimiento de sonido urbano, comando de voz de Qualcomm y dígitos hablados. El conjunto de datos de reconocimiento de sonido urbano consta de 873 clips de audio de 10 clases, que son clips de sonido urbano de alta calidad grabados en la ciudad de Nueva York41. Cada clip de audio tiene una duración de cuatro segundos con una frecuencia de muestreo de al menos 44,1 kHz. En comparación con los conjuntos de datos comúnmente disponibles, tenemos una cantidad extremadamente pequeña de muestras.

Para demostrar la reconfigurabilidad de la computadora del reservorio Hopf para el procesamiento de audio, también se utiliza el conjunto de datos de comandos de voz de Qualcomm. Este conjunto de datos consta de 4270 clips de audio con una duración de 1 segundo cada uno, que son cuatro palabras de activación que se recopilan de hablantes con diversas velocidades de habla y acentos42. Del conjunto de datos, usamos 1000 clips para experimentos. En comparación con el caso anterior de reconocimiento de sonido urbano, la única diferencia en el algoritmo de procesamiento es el reentrenamiento de la porción de salida (es decir, después de las capas de convolución) de la lectura de aprendizaje automático (los detalles se analizan en la última parte de la sección de metodología y la sección de resultados). del papel). Para comparar el yacimiento Hopf propuesto con otros yacimientos, también llevamos a cabo un experimento de reconocimiento de dígitos hablados, que sirve como prueba de evaluación comparativa estándar para la computación de yacimientos. El conjunto de datos de dígitos hablados consta de 3000 clips de audio, que son hablados por cinco hablantes diferentes43. Al igual que con el conjunto de datos de comandos de voz de Qualcomm, la cantidad total de clips de audio para los experimentos se establece en solo 1000.

En aras de la velocidad de procesamiento, volvemos a muestrear cada clip de audio con una frecuencia de muestreo de 4000 Hz y normalizamos los datos al rango de \(-1\) a \(+1\) antes de enviarlos al circuito analógico. El 80 % de los resultados del circuito se utilizan para entrenar el modelo de aprendizaje automático y el 20 % restante se utiliza para las pruebas.

En la Fig. 1, se muestran las conexiones nodales de la computadora del reservorio físico Hopf. Aunque solo recopilamos un flujo de datos 1D del circuito de Hopf, el flujo de datos consta tanto de señales de entrada como de la respuesta de los nodos virtuales definidos por la velocidad de muestreo de las señales44. Seguimos este principio de ordenar y manipular señales por sus nodos virtuales. La salida del depósito del circuito se activa primero usando una función de tangente hiperbólica inversa24,45:

Posteriormente, la salida activada se reorganiza por el orden de los nodos virtuales como mapas de características para la percepción de la máquina. En la Fig. 2 se muestra una representación de mapa de características de muestra que consta de 10 clases diferentes de sonido urbano. La computadora del embalse de Hopf produce este mapa de características como se describe en la sección "Oscilador y reservorio de Hopf", que luego se utiliza como entrada a la red neuronal se muestra en la Figura 12. Efectivamente, la computadora del yacimiento Hopf está descargando los costos del espectro Mel computacionalmente caro. Se emplea una activación Swish46 para aumentar el rendimiento del modelo de aprendizaje automático en el procesamiento de la activación de neuronas escasas (es decir, problemas de neuronas muertas) y la precisión general del procesamiento de datos de audio del modelo de aprendizaje automático. Tenga en cuenta que una versión futura del software de aprendizaje automático que utiliza conexión omitida (generando redes residuales)47 impulsará aún más la solidez del software para un gran conjunto de datos. Cada clip de 1 segundo de las salidas se saltea aún más a 200 (número de muestras de tiempo) \(\veces\) 100 (número de nodos virtuales) para el procesamiento de aprendizaje automático (como se indica en la Fig. 12). El algoritmo de aprendizaje automático se implementa utilizando Keras48 con un backend de TensorFlow. El entrenamiento se lleva a cabo en una GPU Nvidia RTX 2080Ti y utiliza un optimizador Adam con una tasa de aprendizaje predeterminada de 0,00149. La función de pérdida es la entropía cruzada50. El tamaño del lote durante el entrenamiento es de 5; las épocas son 100 para el conjunto de datos de reconocimiento de sonido urbano, 20 para el conjunto de datos de comandos de voz de Qualcomm y 100 para los dígitos hablados.

Un esquema que muestra la lectura de aprendizaje automático basada en la red neuronal convolucional para la clasificación de los eventos de audio utilizando la computadora del reservorio Hopf. Los cuadros de color azul claro en la figura corresponden a los mapas de funciones generados a partir de cada operación de aprendizaje automático. Las flechas son las diferentes operaciones de aprendizaje automático. Los números sobre los cuadros azul claro son la profundidad de los mapas de características, y los números inferiores son la longitud y el ancho de los mapas de características, respectivamente. También se opera una agrupación máxima con un tamaño de (2,2) después de dos convoluciones consecutivas para reducir la dimensión de los mapas de características. Tenga en cuenta que para la longitud y el ancho, solo etiquetamos las dimensiones que se modifican después de las operaciones de aprendizaje automático.

Los conjuntos de datos utilizados y analizados durante el estudio actual están disponibles del autor correspondiente a pedido razonable.

Lee, W. et al. Sensores de bioseñales y reconocimiento de voz basado en aprendizaje profundo: una revisión. Sensores 21(4), 1399 (2021).

Artículo ADS PubMed PubMed Central Google Scholar

Karmakar, P., Teng, SW y Lu, G. Gracias por su atención: una encuesta sobre redes neuronales artificiales basadas en la atención para el reconocimiento automático del habla. preimpresión de arXiv arXiv:2102.07259 (2021).

Filho, CP et al. Una revisión sistemática de la literatura sobre el aprendizaje automático distribuido en la computación perimetral. Sensores 22(7), 2665 (2022).

Artículo ADS PubMed PubMed Central Google Scholar

Li, modelo de lenguaje gpt-3 de C. Openai: una descripción técnica. Publicación de blog (2020).

Patterson, D. et al. La huella de carbono de la capacitación en aprendizaje automático se estancará y luego se reducirá. Computadora 55(7), 18–28 (2022).

Artículo Google Académico

Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. y Sutskever, I. Reconocimiento de voz sólido a través de una supervisión débil a gran escala. https://cdn.openai.com/papers/whisper.pdf (2021). Consultado el 28 de septiembre de 2022.

Adversa. El camino hacia una IA segura y confiable. https://adversa.ai/report-secure-and-trusted-ai/ (2021). Consultado el 28 de septiembre de 2022.

Seguridad IBM. Coste de una filtración de datos 2022. https://www.ibm.com/reports/data-breach (2022). Consultado el 28 de septiembre de 2022.

Garg, R. Problemas de política de seguridad y privacidad de datos abiertos y su influencia en la adopción de Internet de las cosas. Primer lunes (2018).

Profundo, S. et al. Una encuesta sobre problemas de seguridad y privacidad en Internet de las cosas desde el contexto en capas. Trans. emergente Telecomun. Tecnología 33(6), e3935 (2022).

Google Académico

Hao, K. Entrenar un solo modelo de IA puede emitir tanto carbono como cinco autos en su vida (2019). https://www.technologyreview.com/2019/06/06/239031 (2019). Consultado el 28 de septiembre de 2022.

Fernando, C. & Sojakka, S. Reconocimiento de patrones en un balde. En Conferencia Europea sobre Vida Artificial 588–597 (Springer, 2003).

Tanaka, G. et al. Avances recientes en la computación de yacimientos físicos: una revisión. Red neuronal 115, 100–123 (2019).

Artículo PubMed Google Académico

Shougat, MR, Li, X., Mollik, T. & Perkins, E. Un estudio teórico de la información de una computadora de reservorio de matriz de osciladores de duffing. J. Cómputo. Din. no lineal. 16(8), 081004 (2021).

Artículo Google Académico

Morán, A. et al. Sistema informático de yacimientos optimizado por hardware para aplicaciones de inteligencia perimetral. Cog. Cómputo.https://doi.org/10.1007/s12559-020-09798-2 (2021).

Artículo Google Académico

Usami, Y. et al. Cómputo de yacimientos in-materio en una red de polianilina sulfonada. Adv. Mate. 33(48), 2102688 (2021).

Artículo CAS Google Académico

Luna, J. et al. Clasificación y pronóstico de datos temporales utilizando un sistema informático de yacimientos basado en memristor. Nat. Electrón. 2(10), 480–487 (2019).

Artículo Google Académico

Mizrahi, A. et al. Computación de tipo neuronal con poblaciones de funciones de base superparamagnéticas. Nat. común 9(1), 1–11 (2018).

Artículo ADS CAS Google Académico

Grollier, J. et al. Espintrónica neuromórfica. Nat. Electrón. 3(7), 360–370 (2020).

Artículo Google Académico

Más grande, L. et al. Computación de reservorios fotónicos de alta velocidad utilizando una arquitectura basada en retardo de tiempo: clasificación de millones de palabras por segundo. física Rev.X 7(1), 011015 (2017).

Google Académico

Barazani, B., Dion, G., Morissette, J.-F., Beaudoin, L. y Sylvestre, J. Neuroacelerómetro microfabricado: integración de detección y computación de reservorios en mems. J. Microelectromecánica. sist. 29(3), 338–347 (2020).

Artículo Google Académico

Kan, S. et al. Computación simple de yacimientos que aprovecha la respuesta no lineal de los materiales: teoría e implementaciones físicas. física Aplicación Rev. 15(2), 024030 (2021).

Artículo ADS CAS Google Académico

Apelante, L. et al. Procesamiento de información usando un solo nodo dinámico como sistema complejo. Nat. común 2(1), 1–6 (2011).

Artículo Google Académico

Shougat, MREU, Li, XF, Mollik, T. & Perkins, E. Una computadora de reservorio físico Hopf. ciencia Rep. 11(1), 1–13 (2021).

Artículo ANUNCIOS Google Académico

Shougat, MREU, Li, XF y Perkins, E. Efectos dinámicos en la computación de yacimientos con un oscilador Hopf. física Rev.E 105(4), 044212 (2022).

Artículo ADS MathSciNet CAS PubMed Google Scholar

Li, XF et al. Efectos estocásticos en un oscilador de frecuencia adaptativa Hopf. Aplicación J. física 129(22), 224901 (2021).

Artículo ADS CAS Google Académico

Li, XF et al. Un oscilador Hopf adaptativo de cuatro estados. PLoS ONE 16(3), e0249131 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Shougat, MR, Kennedy, S. & Perkins, E. Una computadora de reservorio físico de actuador de aleación de memoria de forma con autodetección. IEEE Sens. Lett.https://doi.org/10.1109/LSENS.2023.3270704 (2023).

Artículo Google Académico

Nayfeh, AH & Balachandran, B. Dinámica no lineal aplicada: métodos analíticos, computacionales y experimentales (John Wiley & Sons, Hoboken, 2008).

Matemáticas Google Académico

Yun, J., Srivastava, S., Roy, D., Stohs, N., Mydlarz, C., Salman, M., Steers, B., Bello, JP y Arora, A. Infraestructura libre, aprendizaje profundo urbano monitoreo de ruido a 100mW. CDR (2022).

Gao, Y., Liu, Y., Zhang, H., Li, Z., Zhu, Y., Lin, H. y Yang, M. Estimación del consumo de memoria gpu de los modelos de aprendizaje profundo. En las actas de la 28.ª reunión conjunta de la ACM sobre la conferencia europea de ingeniería de software y el simposio sobre los fundamentos de la ingeniería de software 1342–1352 (2020).

Lin, J., Zhu, L., Chen, WM, Wang, WC, Gan, C. y Han, S. Entrenamiento en el dispositivo con una memoria de 256 kb. preimpresión de arXiv arXiv:2206.15472 (2022).

Rajaby, E. & Sayedi, SM Una revisión estructurada de algoritmos de transformada rápida de Fourier dispersos. Dígito. Proceso de señal. 123, 103403 (2022).

Artículo Google Académico

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S. et Alabama. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. preimpresión de arXiv arXiv:2010.11929 (2020).

Kaur, A., Kaur, L. & Gupta, S. Reconocimiento de imágenes mediante coeficiente de correlación e índice de similitud estructural en un entorno no controlado. En t. J. Cómputo. Apl.59(5) (2012).

Sazli, MH Una breve revisión de las redes neuronales de avance. Facultad de Ciencias de la Comunicación Universidad de Ankara Serie A2-A3 Ciencias Físicas e Ingeniería50(01) (2006).

Wang, L., Zhang, Y. & Feng, J. Sobre la distancia euclidiana de las imágenes. Trans. IEEE. Patrón Anal. Mach. Intel. 27(8), 1334–1339 (2005).

Artículo PubMed Google Académico

Lenk, C., Ekinci, A., Rangelow, IW y Gutschmidt, S. Células ciliadas artificiales activas para la detección de sonido biomimética basada en tecnología de voladizo activo. En 2018, 40.ª Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC) 4488–4491 (IEEE, 2018).

Gomez, F., Lorimer, T. & Stoop, R. Los sistemas de tipo Hopf subumbral acoplados a señales muestran una respuesta colectiva agudizada. física Rev. Lett. 116, 108101 (2016).

Artículo ADS PubMed Google Scholar

Ma, S., Brooks, D. y Wei, G.-Y. Un RNN de peso multinivel y activación binaria y un algoritmo de entrenamiento para inferencia de procesamiento en memoria resistente al ruido y sin ADC/DAC con eNVM. preimpresión de arXiv arXiv:1912.00106 (2019).

Salamon, J., Jacoby, C. & Bello, JP Conjunto de datos y taxonomía para la investigación del sonido urbano. En Actas de la 22.ª Conferencia Internacional ACM sobre Multimedia 1041–1044 (2014).

Kim, B., Lee, M., Lee, J., Kim, Y. y Hwang, K. Búsqueda por ejemplo de detección de palabras clave en el dispositivo. En 2019 Taller de comprensión y reconocimiento de voz automático (ASRU) IEEE 532–538 (IEEE, 2019).

Jackson, Z. Conjunto de datos de dígitos libres hablados (FSDD). https://github.com/Jakobovski/free-spoken-digit-dataset (2018). Consultado el 28 de septiembre de 2022.

Jacobson, P., Shirao, M., Kerry, Yu., Guan-Lin, S. y Ming, CW Cómputo de reservorios optoelectrónicos convolucionales híbridos para el reconocimiento de imágenes. J. Tecnología de ondas de luz. 40(3), 692–699 (2021).

Artículo ANUNCIOS Google Académico

Miller, CL & Freedman, R. La actividad de las interneuronas del hipocampo y las células piramidales durante la respuesta del hipocampo a estímulos auditivos repetidos. Neurociencia 69(2), 371–381 (1995).

Artículo CAS PubMed Google Académico

Ramachandran, P., Zoph, B. & Le, QV Búsqueda de funciones de activación. preimpresión de arXiv arXiv:1710.05941 (2017).

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones 770–778 (2016).

Chollet, F. Keras: Aprendizaje profundo para humanos. https://github.com/keras-team/keras (2015). Consultado el 28 de septiembre de 2022.

Kingma, DP & Ba, J. Adam: Un método para la optimización estocástica. preimpresión de arXiv arXiv: 1412.6980 (2014).

De Boer, P.-T., Kroese, DP, Mannor, S. & Rubinstein, RY Un tutorial sobre el método de entropía cruzada. Ana. oper. Res. 134(1), 19–67 (2005).

Artículo MathSciNet MATEMÁTICAS Google Académico

Descargar referencias

Los autores también aprecian mucho la fructífera discusión de los procedimientos y resultados experimentales con el Dr. Omar Zahr y el Dr. Helge Seetzen.

Estos autores contribuyeron por igual: Md Raf E. Ul Shougat, XiaoFu Li, Siyao Shao, Kathleen McGarvey y Edmon Perkins.

Departamento de Ingeniería Mecánica y Aeroespacial, Universidad Estatal de Carolina del Norte, 1840 Entrepreneur Drive, Raleigh, NC, 27695, EE. UU.

Md Raph E. Ul Shougat

LAB2701, Atwood, OK, 74827, EE. UU.

Xiao Fu Li y Edmon Perkins

Lanzamiento Tandem, 780 Av. Brewster, Montreal, H4C2K1, Canadá

Siyao Shao y Kathleen McGarvey

ecosónico, 780 av. Brewster, Montreal, H4C2K1, Canadá

Siyao Shao

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

MREUS, XL, SS, KWM y EP concibieron juntos los conceptos y las perspectivas de este artículo y coescribieron el manuscrito.

Correspondencia a Edmon Perkins.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Shougat, MREU, Li, X., Shao, S. et al. Computadora de depósito físico Hopf para reconocimiento de sonido reconfigurable. Informe científico 13, 8719 (2023). https://doi.org/10.1038/s41598-023-35760-x

Descargar cita

Recibido: 20 febrero 2023

Aceptado: 23 de mayo de 2023

Publicado: 30 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-35760-x

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR