banner

Nachricht

Oct 25, 2023

Hopf-Physical-Reservoir-Computer zur rekonfigurierbaren Klangerkennung

Scientific Reports Band 13, Artikelnummer: 8719 (2023) Diesen Artikel zitieren

271 Zugriffe

3 Altmetrisch

Details zu den Metriken

Der Hopf-Oszillator ist ein nichtlinearer Oszillator, der eine Grenzzyklusbewegung aufweist. Dieser Reservoircomputer nutzt die Vibrationsnatur des Oszillators, was ihn zu einem idealen Kandidaten für rekonfigurierbare Schallerkennungsaufgaben macht. In dieser Arbeit werden die Fähigkeiten des Hopf-Reservoircomputers zur Schallerkennung systematisch demonstriert. Diese Arbeit zeigt, dass der Hopf-Reservoir-Computer im Vergleich zu herkömmlichen Ansätzen (z. B. einem Mel-Spektrum-Ansatz + maschinellem Lernen) eine überlegene Klangerkennungsgenauigkeit bieten kann. Noch wichtiger ist, dass der Hopf-Reservoir-Computer, der als Schallerkennungssystem fungiert, keine Audio-Vorverarbeitung erfordert und sehr einfach einzurichten ist, während er dennoch ein hohes Maß an Rekonfigurierbarkeit bietet. Diese Funktionen ebnen den Weg für die Anwendung von physikalischem Reservoir-Computing zur Geräuscherkennung in Edge-Geräten mit geringem Stromverbrauch.

Es gibt allgegenwärtige Methoden zur Klassifizierung von Audiosignalen, insbesondere für die Spracherkennung1,2. Allerdings weist maschinelles Lernen mehrere Nachteile auf, die seiner breiten Verbreitung im Internet der Dinge (IoT) entgegenstehen3. Erstens ist maschinelles Lernen, insbesondere tiefe neuronale Netze (DNNs), auf die Cloud-Infrastruktur angewiesen, um umfangreiche Berechnungen sowohl für das Modelltraining als auch für die Inferenz durchzuführen. Hochmoderne (SOTA) Deep-Learning-Modelle wie GPT-3 können über 175 Milliarden Parameter und Trainingsanforderungen von 3,14 \(\times\) \(10^{23}\) FLOPS (Floating Operations) haben pro Sekunde)4,5. Beim Training des SOTA-Sprachtranskriptionsmodells Whisper wurde eine Wortbibliothek verwendet, die so viele Wörter enthielt, wie eine Person 77 Jahre lang ununterbrochen sprechen würde6. Keine dieser genannten technischen Anforderungen könnte von irgendwelchen Edge-Geräten für IoT erfüllt werden; Daher ist die Cloud-Infrastruktur eine Notwendigkeit für DNN-Aufgaben. Zweitens birgt die Abhängigkeit von Cloud Computing für maschinelles Lernen große Sicherheits- und Datenschutzrisiken. Über 60 % der bisherigen Sicherheitsverletzungen ereigneten sich während der Rohdatenkommunikation zwischen der Cloud und dem Edge für maschinelles Lernen7. Darüber hinaus verursacht jeder Verstoß einen durchschnittlichen Verlust von 4,24 Millionen US-Dollar, Tendenz steigend8. Die Sorge um den Datenschutz führt bei Nutzern intelligenter Geräte zu Misstrauen und führt dazu, dass intelligente Geräte aufgegeben werden9,10. Drittens werden die Umweltauswirkungen der Implementierung von DNN über eine Cloud-Infrastruktur oft übersehen, können aber nicht vernachlässigt werden. Durch das Trainieren eines Transformatormodells mit 213 Millionen Parametern werden über die gesamte Lebensdauer hinweg Kohlendioxidemissionen erzeugt, die viermal so hoch sind wie die eines Fahrzeugs eines US-Herstellers11. Daher muss die nächste Generation intelligenter IoT-Geräte über ausreichende Rechenleistung verfügen, um maschinelles Lernen oder sogar Deep Learning am Rande durchzuführen.

Unter den Bemühungen, maschinelles Lernen auf Edge-Geräte zu übertragen, hat das Reservoir-Computing, insbesondere das physikalische Reservoir-Computing, in den letzten zwei Jahrzehnten erste Erfolge erzielt. Ausgehend von den Konzepten von Flüssigzustandsmaschinen und Echozustandsnetzwerken zeigten Forscher, dass die durch Schall verursachten Wellen auf der Oberfläche eines Eimers Wasser zur Erkennung von Audiosignalen genutzt werden können12. Kurz gesagt nutzt Reservoir Computing die intrinsische Nichtlinearität eines physikalischen Systems aus, um den Prozess von Knotenverbindungen in einem neuronalen Netzwerk zu reproduzieren und Merkmale aus Zeitreihensignalen für die maschinelle Wahrnehmung zu extrahieren13,14. Reservoir Computing führt Berechnungen direkt auf analoge Weise unter Verwendung des physischen Systems durch, wodurch die Notwendigkeit einer separaten Datenspeicherung, Organisation und Wahrnehmung durch maschinelles Lernen weitgehend entfällt. Insbesondere eignet sich Reservoir Computing natürlich für Audioverarbeitungsaufgaben, bei denen es sich um eine Teilmenge von Zeitreihensignalen handelt.

Forscher haben viele physikalische Systeme erforscht, die als Reservoircomputer für die zeitliche Signalverarbeitung fungieren. Zu diesen Systemen gehören das feldprogrammierbare Gate-Array (FPGA)15, chemische Reaktionen16, Memristoren17, superparamagnetische Tunnelkontakte18, Spintronik19, Abschwächung der Wellenlänge von Lasern in speziellen Medien20, MEMS (mikroelektromechanische Systeme)21 und andere13,22. Obwohl diese Studien gezeigt haben, dass Reservoir-Computing die Verarbeitung von Audiosignalen bewältigen kann, ist das physikalische System für die Berechnung normalerweise sehr umständlich20, und sie alle erfordern eine Vorverarbeitung der ursprünglichen Audioclips mit Methoden wie dem Mel-Spektrum, was die Vorteile der Reduzierung weitgehend zunichte macht Rechenanforderungen des maschinellen Lernens mittels Reservoir Computing. Noch wichtiger ist, dass herkömmliche Reservoir-Computing-Techniken zur Steigerung der Rechenleistung eine zeitverzögerte Rückkopplung nutzen, die durch eine Digital-Analog-Umwandlung erreicht wird23, und die zeitverzögerte Rückkopplung wird die Verarbeitungsgeschwindigkeit der Reservoir-Rechenleistung beeinträchtigen und gleichzeitig den Energieverbrauch für die Datenverarbeitung drastisch erhöhen . Wir vermuten, dass die nicht zufriedenstellende Leistung des physikalischen Reservoir-Computing größtenteils auf die unzureichende Rechenleistung der in den vorherigen Arbeiten ausgewählten Computersysteme zurückzuführen ist.

Kürzlich haben wir herausgefunden, dass der Hopf-Oszillator, der ein gängiges Modell für viele physikalische Prozesse ist, über ausreichende Rechenleistung verfügt, um maschinelles Lernen durchzuführen. Obwohl es sich hierbei um ein sehr einfaches physikalisches System handelt, können Berechnungen ohne die Notwendigkeit einer zusätzlichen Datenverarbeitung, zeitverzögerten Rückmeldungen oder zusätzlichen elektrischen Komponenten durchgeführt werden24,25,26,27. Interessanterweise kann die nichtlineare Aktivierung eines neuronalen Netzwerks manchmal auch vom physikalischen Reservoir erfasst werden, was die Architektur des physikalischen Reservoircomputers weiter vereinfachen kann (z. B. ein physikalisches Reservoircomputer mit Formgedächtnislegierungsaktuator28). Die Leistung des Hopf-Oszillator-Reservoircomputers bei einer Reihe von Benchmarking-Aufgaben (z. B. logische Aufgaben, Emulation von Zeitreihensignalen und Vorhersageaufgaben) ist im Vergleich zu viel komplexeren physikalischen Reservoirs außergewöhnlich.

Dieses Papier ist eine Erweiterung früherer Arbeiten, um die herausragenden Fähigkeiten des Hopf-Reservoircomputers für Audiosignalerkennungsaufgaben weiter zu demonstrieren. Der Hopf-Oszillator fungiert als nichtlinearer Filter, aber auch ein Teil der Rechenaufgabe wird auf den physikalischen Hopf-Reservoircomputer verlagert. Basierend auf unserer früheren Arbeit führt der Hopf-Oszillator sowohl Berechnungen durch als auch speichert Informationen in seinen dynamischen Zuständen24,25. Grundsätzlich handelt es sich bei der nichtlinearen Reaktion des Oszillators um eine Art nichttraditioneller Berechnung, die durch maschinelles Lernen erschlossen wird. Darüber hinaus fungieren die dynamischen Zustände des Oszillators als eine Art lokaler Speicher, da kein zusätzlicher Speicher durch Verzögerungsleitungen eingeführt wurde. In dieser früheren Arbeit am Hopf-Oszillator wurde eine einzelne Ausleseschicht darauf trainiert, eine Reihe von Aufgaben auszuführen. Hier wird die einzelne Ausleseschicht durch ein relativ flaches neuronales Netzwerk für schwierigere Aufgaben, wie etwa die Geräuscherkennung, ersetzt. Diese Ergebnisse deuten auf die Wirksamkeit der Verwendung dieser Art von Reservoircomputern für Edge Computing hin, was in absehbarer Zukunft den Weg für die Erlangung künstlicher Edge-Intelligenz und dezentralem Deep Learning ebnen könnte.

Der erzwungene Hopf-Oszillator wird in Gl. dargestellt. (1)27,29:

In den obigen Gleichungen beziehen sich x und y auf den ersten bzw. zweiten Zustand des Hopf-Oszillators. Der \(\omega _0\)-Term ist die Resonanzfrequenz des Hopf-Oszillators. Der Parameter \(\mu\) beeinflusst den Radius der Grenzzyklusbewegung. Ohne externen Antrieb hätte der Hopf-Oszillator beispielsweise einen Grenzzyklus mit dem Radius \(\mu\) und würde mit einer Frequenz von \(\omega _0\) schwingen. Dieser Parameter korreliert auch lose mit dem Qualitätsfaktor des Oszillators. A ist die Amplitude einer Sinuskraft.

Damit der Oszillator Audiosignale klassifizieren kann, wird ein externes Treibersignal a(t) konstruiert, das das Audiosignal enthält, was in Gleichung (1) dargestellt ist. (2); Dies wird dann als Eingabe für den Hopf-Oszillator verwendet. Der modifizierte Hopf-Oszillator als Reservoir wird durch die Gleichungen dargestellt. (3) und (4):

Das externe Signal f(t) setzt sich aus einem DC-Offset und dem Audiosignal a(t) zusammen. Der DC-Offset stellt sicher, dass der Radiusparameter nicht negativ ist. Dieses externe Signal wird sowohl in den Radiusparameter \(\mu\) als auch in die Sinuskurve \(A\sin (\Omega t)\) eingespeist. Der Hopf-Oszillator reagiert dynamisch auf das Audiosignal und der x-Zustand entspricht den Audiofunktionen für die Audioklassifizierungsaufgabe des maschinellen Lernens. Obwohl der y-Zustand nicht explizit in der Klassifizierungsaufgabe verwendet wird (wie in Abb. 1 dargestellt), speichert er wahrscheinlich Informationen und hilft bei der Rechenaufgabe. Im Gegensatz zur ursprünglichen Form des Hopf-Oszillator-Reservoircomputers verwenden wir die Hopf-Oszillationen, um Audiomerkmale für die Klassifizierung zu extrahieren, anstatt die beiden Zustandsausgänge direkt für die Vorhersage von Zeitreihensignalen zu verwenden24. Daher werden mehrere Änderungen am Rechenschema des Hopf-Oszillator-Reservoircomputers vorgenommen. Erstens beinhaltet diese Formulierung des Reservoirs nicht das typische Verfahren der Multiplikation von Eingaben mit der Maskierungsfunktion, da keine Maskierungsfunktion enthalten ist. Beim herkömmlichen Reservoir-Computing wird eine voreingestellte Maske verwendet, die die Reservoir-Ausgaben multipliziert, um Neuronen im Reservoirsystem zu erzeugen. Das Training der Maske entspricht der Aktualisierung von Parametern beim Training der digital realisierten neuronalen Netze. Diese Methode ist jedoch speicherintensiv und für die Audiosignalverarbeitung ineffizient, da die Länge der Maske ausreichen sollte, um die Länge des Audioclips und die für die Signalklassifizierung erforderlichen Knotenverbindungen abzudecken. Anstatt Masken zu trainieren, verwenden wir eine effizientere Auslesung eines Faltungs-Neuronalen Netzwerks mit mehreren Schichten, um die Reservoir-Ausgaben direkt weiterzuleiten und die Verbindungen zwischen den einzelnen Schichten als Parameter zu trainieren. Zweitens wird das Gaußsche Rauschen nicht mit dem Audiosignal multipliziert, da die Audiosignale bereits Hintergrundrauschen aufweisen. Diese Rauschmaske wurde in einer früheren Computerstudie zum Hopf-Reservoir verwendet, um ihre Robustheit hervorzuheben24. Drittens verwenden wir anstelle einer Pseudoperiode als Leitfaden für das Training der maschinellen Lernauslesung die Anzahl der für die Klassifizierung gesammelten Stichproben, um die Knotenverbindungen innerhalb jedes gesammelten Merkmalspunkts zu steuern, der aus der Reservoirverarbeitung von 1D-Audiodaten generiert wird. N virtuelle Knoten bedeuten, dass das Reservoir für jeden Abtastpunkt des Originalaudios \(N-1\) Knotenverbindungen in 1D für jeden Reservoirzustand zur Klassifizierung generiert. Beispielsweise wird bei N virtuellen Knoten ein abgetasteter Audiodatenpunkt vom physischen Knoten (d. h. x in Abb. 1) \(N-1\) Mal verarbeitet, wodurch N Merkmalspunkte aus einem Audio-Sample und \(N -1\) Knotenverbindungen in diesen N Merkmalspunkten. Im aktuellen Artikel haben wir N für die Audioverarbeitung auf 100 gesetzt. Diese Methode beeinträchtigt die Abtastgeschwindigkeit der Audiosignale. Daher sampeln wir die ursprünglichen Audiodaten in voller Auflösung neu, um sicherzustellen, dass wir Experimente innerhalb eines relativ kurzen Zeitraums durchführen. Es ist erwähnenswert, dass die Länge der Audioclips für jedes Klassifizierungsereignis effektiv die Pseudoperiode im traditionellen Kontext der Reservoirberechnung über zeitverzögerte Rückkopplungsschleifen aufbaut (d. h. eine feste Länge des Audios erzeugt ein Klassifizierungsergebnis mit). Einzelheiten werden später bekannt gegeben). Die letztendliche Knotenverbindung des Hopf-Reservoircomputers und der Ausgabeverarbeitung könnte wie in Abb. 1 dargestellt werden.

Ein Schema, das die Knotenverbindungen innerhalb eines Hopf-Oszillators für die Reservoirberechnung zeigt. Das ursprüngliche Signal f(t) wird an die beiden Zustände des Oszillators (dh zwei physische Knoten) gesendet. Jeder physische Knoten generiert N virtuelle Knoten in Zeitreihen. Die digitalen Ausleseschichten (dh der Algorithmus für maschinelles Lernen) lesen n Abtastwerte vom Knoten x des Oszillators (beachten Sie, dass wir in diesem Artikel nur einen Knoten für die Audioklassifizierung verwenden). \(n_0\) entspricht der Anzahl der Samples des ursprünglichen Audiosignals und N bezieht sich auf die Anzahl der virtuellen Knoten, die von den Auslesemechanismen gesteuert werden. Das Signal vom Reservoir wird dann an ein neuronales Netzwerk gesendet, was durch den blauen gestrichelten Pfeil angezeigt wird; Dieses neuronale Netzwerk ist in Abb. 12 beschrieben. Die digitale Anzeige klassifiziert die n Samples, die einem Audioclip entsprechen, in seine Klasse.

Hier wird der Hopf-Reservoircomputer zur Berechnung von Merkmalskarten verwendet, wobei mehrere repräsentative Beispiele in Abb. 2 dargestellt sind. „VN#“ bezieht sich auf die virtuelle Knotennummer, und die Zeitskala für die andere Achse ist so definiert, dass die Schrittgröße beträgt der Kehrwert der Abtastrate. Der Wert der Feature-Map wird von 0 auf 1 neu skaliert. Aufeinanderfolgende Faltungsschichten, gefolgt von der abgeflachten Schicht und den vollständig verbundenen Schichten, die in Abb. 12 dargestellt sind, bilden die maschinelle Lernauslesung für die Verarbeitung der Audiosignalausgänge aus dem Reservoir Weitere Informationen finden Sie im Abschnitt „Methoden“. Beachten Sie, dass ein ähnlicher Ansatz bei der SOTA-Stadtgeräuscherkennung auf Edge-Geräten angewendet wird30, obwohl wir die rechenintensive Vorverarbeitung des Mel-Spektrogramms eliminieren, indem wir die Merkmalsextraktion auf den Reservoircomputer verlagern. Noch wichtiger ist, dass unser Ansatz anstelle des in 30 verwendeten Mel-Spektrogramms eine sehr grobe Abtastung (hier wurden 4000 Hz verwendet) verwenden könnte, um die Granularität der Audiosignale zu erfassen. Im folgenden Abschnitt wird ein detaillierter Vergleich bereitgestellt, um die überlegene Merkmalsextraktion des Hopf-Reservoircomputers zu demonstrieren.

Vom Hopf-Oszillator generierte Beispiel-Feature-Maps, die verschiedenen Audioereignissen entsprechen. Jeder Audioclip hat eine Länge von 1 Sekunde und wird mit 4000 Hz abgetastet. Die x-Achse folgt der arithmetischen Reihenfolge der virtuellen Knoten und die y-Achse ist die Zeit. Für den Test ist das Reservoir auf 100 Knoten eingestellt. Der Graustufenwert (von 0 bis 1) jedes Pixels entspricht der Signalstärke jedes Datenpunkts (d. h. Merkmalspunkt des Audiosignals). (a) Klimaanlage. (b) Autohupe. (c) Kinder spielen. (d) Hundegebell. (e) Bohren. (f) Motor im Leerlauf. (g) Schuss. (h) Presslufthammer. (i) Sirene. (j) Straßenmusik.

Zunächst präsentieren wir die Ergebnisse des Hopf-Reservoircomputers für eine städtische Geräuscherkennungsaufgabe. Wie in Abb. 3 in der linken Spalte dargestellt, zeigen die Audiomerkmale der Mel-Spektrum-Operationen (berechnet anhand der Audioclips mit einer Abtastrate von 44,1 kHz) drastische Unterschiede zwischen den drei Beispielen; Wenn wir das obere Beispiel als Referenz verwenden, beträgt der durchschnittliche punktuelle euklidische Abstand zwischen der Referenz und den anderen beiden mehr als 25. Im Vergleich dazu sind die Audiofunktionen des Hopf RC in der rechten Spalte von Abb. 3 dargestellt. Alle drei Beispiele weisen eine viel größere Ähnlichkeit zu diesen drei Beispielen auf (z. B. euklidischer Abstand < 12). Der durchschnittliche euklidische Abstand für die Stichproben zwischen den Klassen beträgt:

wobei c(x, y) die Amplitude des Hopf-Reservoircomputers zum Zeitpunkt x und der virtuellen Knotennummer y ist. Hier ist i über Klasse I indiziert, j ist über Klasse J indiziert, \(\alpha\) ist über alle Werte von x indiziert und \(\beta\) ist über alle Werte von y indiziert. Die durchschnittlichen euklidischen Abstände sind in Abb. 4 dargestellt. Die Diagonale hat den minimalen Wert für jede Spalte und Zeile, was zeigt, dass der Hopf-Oszillator auch ohne das neuronale Netzwerk in der Lage ist, die Klassen zu trennen.

Das Mel-Spektrum wird mit dem Hopf RC für die Stadtgeräuscherkennungsaufgabe verglichen. Von oben nach unten werden drei Beispiele der Sirenenklasse vorgestellt. In der linken Spalte wird die Energie des Mel-Spektrums angezeigt, wobei die horizontale Achse die Zeit und die vertikale Achse die Frequenz darstellt. Die Mel-Spektrum-Operation wird an vier Sekunden langen Proben mit einer Abtastrate von 44,1 kHz durchgeführt. Die Gesamtzahl der Frequenzbänder ist auf 100 und der Zeitschritt auf 0,025 Sekunden eingestellt. In der rechten Spalte werden die vom Hopf-Reservoir-Computer für dieselben Samples extrahierten Audiofunktionen angezeigt, sodass jeder 1-sekündige Audioclip auf 4000 Hz heruntergesampelt und die Anzahl der virtuellen Knoten auf 100 gesetzt wird. Insbesondere die Mel-Ergebnisse und die Hopf Die Reservoir-Ergebnisse sehen einander nicht ähnlich, aber die von jedem Prozess übermittelten Informationen sind intern konsistent, was durch die Leistung des Klassifikators hervorgehoben wird.

In dieser symmetrischen Matrix werden die durchschnittlichen euklidischen Abstände für die zehn städtischen Klangklassen dargestellt. Die durchschnittlichen euklidischen Abstände wurden zwischen allen Stichproben innerhalb einer einzelnen Klasse (diagonale Elemente) und zwischen allen Stichproben aus zwei Klassen (außerdiagonale Elemente) berechnet.

Auch für reale Anwendungen ist die Robustheit der Audioklassifizierung von großer Bedeutung. Um dies hervorzuheben, werden die Ergebnisse des Mel-Spektrums mit den Hopf-RC-Ergebnissen für drei verschiedene Geräuschpegel verglichen. Am Beispiel in der oberen Reihe von Abb. 3 wird dem Originalsignal weißes Rauschen hinzugefügt, um unterschiedliche Signal-Rausch-Verhältnisse (SNRs) zu erzeugen; Die Audiomerkmale dieser drei neuen Signale werden mit dem Mel-Spektrum (mit einer Audio-Abtastrate von 44,1 kHz) und dem Hopf-Reservoir-Computer (mit einer Audio-Abtastrate von 4000 Hz) berechnet. Die ausgegebenen Audiomerkmale sind in Abb. 5 dargestellt. Es ist deutlich zu erkennen, dass die auf dem Mel-Spektrum basierenden Audiomerkmale Niederfrequenzinformationen verlieren, wenn das SNR auf 20 reduziert wird, während die vom Hopf-Reservoir-Computer generierten Merkmale eine ähnliche Struktur beibehalten Original-Audio-Gegenstück mit einem euklidischen Abstand < 5 für ein SNR von 20.

Die Robustheit der Hopf RC-Audioextraktion wird mit dem Mel-Spektrum für verschiedene Signal-Rausch-Verhältnisse (SNRs) verglichen. Zur Veranschaulichung wird das oben in Abb. 3 dargestellte Sirenenbeispiel mit unterschiedlichem Geräuschpegel verwendet. Von oben nach unten wurden dem ursprünglichen Sirenen-Audiobeispiel drei verschiedene Geräuschpegel hinzugefügt. In der linken Spalte wird die Energie des Mel-Spektrums angezeigt. Beachten Sie, dass das Ergebnis anfängt, Niederfrequenzinformationen zu verlieren, wenn das SNR auf 20 fällt. In der rechten Spalte werden die Audiomerkmale angezeigt, die mit Hopf RC extrahiert wurden. Beachten Sie, dass das Ergebnis für alle Geräuschpegel weitgehend gleich bleibt, selbst wenn das SNR gleich 20 ist.

Die Verwirrungsmatrix für die Stadtgeräuscherkennungsaufgabe ist in Abb. 6 dargestellt. Der vorgeschlagene Audioerkennungsansatz basierend auf dem Hopf-Reservoir-Computer weist eine Genauigkeit von 96,2 % auf. Dies führt zu einer Genauigkeitsverbesserung von 10 % im Vergleich zu 30, mit einer Reduzierung von > 94 % der FLOPS (Floating Operations per Second) für die Auslesung mit hoher Abtastrate und die Berechnung des Mel-Spektrums und \(\sim {90\%}\) der Audiostücke für die Ausbildung.

Für die Aufgabe zur Erkennung städtischer Geräusche wird die Verwirrungsmatrix mit der für die zehn verschiedenen Audioereignisse gekennzeichneten Erkennungsgenauigkeit dargestellt. Beachten Sie, dass die Klassenbezeichnungen in dieser Abbildung mit den Klassenbezeichnungen in Abb. 2 identisch sind.

Unter Verwendung des aus dem vorherigen Testfall trainierten Modells für maschinelles Lernen (dh der Stadtgeräuscherkennungsaufgabe) als Basis testen wir den Qualcomm-Sprachbefehlsdatensatz, um die Rekonfigurierbarkeit des Hopf-Reservoir-Computer-Audioerkennungssystems zu demonstrieren. In diesem Experiment reduzieren wir gezielt die Anzahl der Epochen auf 20 und frieren den CNN-Teil des maschinellen Lernmodells ein, um den Prozess des Audioerkennungssystems von der Stadtgeräuscherkennungsaufgabe auf eine Sprachbefehlsaufgabe umzukonfigurieren. Im linken Teil von Abb. 7 sind repräsentative Audiomerkmale der vier Klassen dargestellt, die deutliche Unterschiede zu den Merkmalen der städtischen Schallereignisse aufweisen (Abb. 2). Die Audioerkennung liefert eine Genauigkeit von > 99 %, wobei die Verwirrungsmatrix im rechten Teil von Abb. 7 dargestellt ist. Beachten Sie, dass die Anzahl der für dieses Experiment trainierten Parameter etwa 35.000 beträgt, was etwa 300 KB dynamischen Speicher für 8-Bit ausmacht Eingabe mit einer Stapelgröße von 531,32, was die Machbarkeit der Ausführung des Trainings der maschinellen Lernauslesung auf Low-Level-Edge-Geräten zeigt, die Li-Po-Akkuleistung verbrauchen.

Zusammenfassung der Ergebnisse des Hopf-Reservoircomputers für die Sprachbefehlsaufgabe von Qualcomm. Links: Beispiele für die vom Hopf-Reservoir-Computer generierten Feature-Maps verschiedener Wake-Wörter. Rechts: Die Verwirrungsmatrix des vorgeschlagenen Tonerkennungssystems, das Weckwörter von Qualcomm verarbeitet. Jede Bezeichnung entspricht: (a) „Hi, Galaxy“, (b) „Hi, Lumia“, (c) „Hi, Snapdragon“ und (d) „Hi, Android“.

Der Datensatz der gesprochenen Ziffern wird verwendet, um die Leistung des Hopf-Reservoircomputers für die Audioerkennung mit anderen Reservoirs (z. B. 15,16,17,18,19,20,21,22) zu vergleichen. Wie in Abb. 8 dargestellt, erreicht der Hopf-Reservoir-Computer eine Genauigkeit von etwa 97 % für die Klassifizierungsaufgabe der gesprochenen Ziffern. Dieses Ergebnis behält die hochmoderne Erkennungsgenauigkeit für diesen Datensatz bei, während nur ein physisches Gerät (dh eine konsolidierte analoge Schaltung) und zwei physische Knoten (x- und y-Zustände) verwendet werden. Zum Vergleich: Das leistungsstärkste Reservoir17 verwendete 10 Memristoren und eine Vorverarbeitung der Original-Audioclips, um eine ähnliche Genauigkeit zu erzielen. Wir vermuten, dass die Vibrationsnatur unseres Reservoirs weitgehend zur Einfachheit des vorgeschlagenen Systems zur Erkennung von Schallereignissen beiträgt und dass die Aktivierung des Reservoirs mithilfe von Sinussignalen die Merkmalsextraktion des Audiosignals mithilfe von Hopf-Oszillationen steigert (Einzelheiten werden später beschrieben).

Zusammenfassung der Ergebnisse des Hopf-Reservoir-Computers, der eine Aufgabe zur Erkennung gesprochener Ziffern durchführt. Die Verwirrungsmatrix des vorgeschlagenen Tonerkennungssystems verarbeitet den Datensatz gesprochener Ziffern mit der ursprünglichen Aktivierungsstärke und dem umgekehrten hyperbolischen Tangens vor den Auslesungen durch maschinelles Lernen.

Darüber hinaus erhöhen wir die Stärke des Aktivierungssignals (Term A in Gleichung 1) und verwerfen die Aktivierung des umgekehrten hyperbolischen Tangens (Gleichung 6) vor der Auslesung des maschinellen Lernens. Die erzielten Ergebnisse, die in Abb. 9 dargestellt sind, haben eine Genauigkeit von 96 % im Vergleich zum Fall mit Gl. (6) bevor der x-Status an die maschinelle Lernauslesung gesendet wird. Dies deutet darauf hin, dass dieser Hopf-Reservoircomputer durch seine digitale Anzeige neu konfiguriert werden kann, ähnlich wie andere physische Reservoircomputer. Darüber hinaus könnte die Rechenleistung des Hopf-Oszillators auch durch eine Änderung der internen physikalischen Bedingungen des Oszillators drastisch gesteigert werden.

Zusammenfassung der Ergebnisse des Hopf-Reservoir-Computers, der eine Aufgabe zur Erkennung gesprochener Ziffern durchführt. Die Verwirrungsmatrix des vorgeschlagenen Tonerkennungssystems verarbeitet den Datensatz gesprochener Ziffern mit einer 10-fachen Erhöhung der Aktivierungsstärke und ohne umgekehrten hyperbolischen Tangens vor den Auslesungen durch maschinelles Lernen.

Diese Hopf-Computerarchitektur mit physikalischem Reservoir wird für reale Edge-Computing-Anwendungen wie die Audioerkennung vorgeschlagen. Obwohl die Spracherkennung für tiefe neuronale Netze, die in der Cloud laufen, eine relativ einfache Aufgabe ist, ist sie für Edge-Computer aufgrund ihrer begrenzten Rechenleistung eine schwierige Aufgabe. Die vorgeschlagene Architektur nutzt effektiv die Stärken sowohl analoger als auch digitaler Geräte, indem sie einen analogen Oszillator mit einem digitalen neuronalen Netzwerk verbindet. Darüber hinaus kann der Hopf-Oszillator problemlos aus handelsüblichen elektrischen Komponenten hergestellt werden.

Die in diesem Artikel besprochene Hopf-Computerarchitektur mit physikalischem Reservoir weist mehrere deutliche Unterschiede zu anderen ähnlichen Computern mit physischem Reservoir auf. Am hervorstechendsten ist, dass dieser Hopf-Oszillator mit einem neuronalen Netzwerk gepaart ist, anstatt eine einfache Ridge-Regression zu verwenden. Durch die Erhöhung der Komplexität des neuronalen Netzwerks ist der Hopf-Reservoircomputer in der Lage, schwierigere Aufgaben auszuführen. Da das neuronale Netzwerk unkompliziert ist, kann es leicht implementiert werden. Die in diesem Artikel verwendete Architektur verwendet keine Vorverarbeitung der ursprünglichen Audiodaten, was den Rechenaufwand der Erkennungsaufgabe erheblich reduziert. Stattdessen folgt es dem Aktivierungssignal, um die Merkmalskarten durch Matrixumformung und inverses Tanh zu erstellen. Normalerweise wird für diese Art von Aufgabe das Mel-Spektrum verwendet, das mehr als die Hälfte der Rechenlast ausmachen kann33. Die meisten auf nichtlinearen Oszillatoren basierenden physikalischen Reservoircomputer müssen eine zeitverzögerte Rückkopplung verwenden, was umständlich ist, da dafür Digital-Analog- und Analog-Digital-Wandler erforderlich wären. Der Hopf-Oszillator ist jedoch in der Lage, in seinen dynamischen Zuständen genügend Informationen zu speichern, um dies zu vermeiden24,25. Darüber hinaus ist die vorgestellte Architektur aufgrund der Nichtlinearität des Hopf-Oszillators robust gegenüber Rauschen, was für reale Audioverarbeitungsanwendungen wichtig ist.

Die vorgeschlagene Architektur hat mehrere entscheidende Vorteile. Erstens wird der Rechenaufwand für den vorgeschlagenen Ansatz erheblich reduziert. Die bei der Erstellung der Feature-Maps beteiligten Berechnungen sind Matrixumformung, Normalisierung und inverses Tanh. Diese Operationen verbrauchen im Vergleich zum Mel-Spektrogramm bei einer Abtastrate von 4.000 Hz nur etwa 10 % der Rechenleistung. Eine Schätzung der Rechenlast kommt zu dem Schluss, dass ähnliche Vorgänge auf Cortex-M4-Edge-Geräten (Arm, San Jose, Kalifornien) bei der Ausführung dieses Algorithmus nur etwa 5 ms Latenz ergeben. Zweitens kann die vorgeschlagene Methode mit verschiedenen Modellen des maschinellen Lernens kombiniert werden. Obwohl der Artikel das CNN als Auslesegerät für maschinelles Lernen verwendet, kann die aus der vorgeschlagenen Methode resultierende Merkmalskarte durch gängige Bildverarbeitungsmethoden ersetzt werden, einschließlich, aber nicht beschränkt auf Transformer(34), Strukturähnlichkeitsindex(35), Feedforward-Neuronales Netzwerk( 36) und der euklidische Abstand (37) usw. Drittens können physikalisch implementierte Grenzzyklen im Vergleich zum Mel-Spektrogramm Merkmale erzeugen, die sowohl gegenüber Rauschen als auch geringer Audioqualität robust sind. Es ist erwähnenswert, dass es sich bei dem für die Experimente verwendeten Audio um eine heruntergesampelte Version handelt, die etwa der Hälfte der vom Mel + CNN-Ansatz verwendeten Abtastrate entspricht und dennoch eine etwa 10 % höhere Audioerkennungsgenauigkeit erreicht. Als Beispiel für diese Robustheit behält die aus dem Audio mit zusätzlichem Rauschen generierte Feature-Map (Abb. 5) ihre besonderen Merkmale auch bei extrem niedrigem Signal-Rausch-Verhältnis (< 20).

In diesem Artikel stellen wir die Ergebnisse der Schallsignalerkennung mithilfe der Reservoir-Computing-Technologie vor, die aus einem Hopf-Oszillator besteht24,25. Anstatt eine rechenintensive Vorverarbeitung (z. B. Mel-Spektrum) zu verwenden, die üblicherweise in anderen Studien15,17,20,30 verwendet wird, verwenden wir direkt die Ausgänge der Hopf-Schaltung, um das normalisierte Audiosignal für die Erkennung durch maschinelles Lernen zu verarbeiten. Wir gehen davon aus, dass dieses Hopf-Reservoir-Computing direkt auf Mikrofone implementiert werden kann, um eine zukünftige Verarbeitung auf dem Sensor zu erreichen.

Im Abschnitt „Ergebnisse“ zeigen wir systematisch, dass unser Hopf-Reservoir-Computing-Ansatz eine 10-prozentige Genauigkeitsverbesserung bei einer vielfältigen 10-Klassen-Stadtgeräuscherkennung im Vergleich zu den hochmodernen Ergebnissen mit Edge-Geräten30 liefert, während wir überraschenderweise eine 10-prozentige Verbesserung erzielen einfache Vorverarbeitung durch einfache Normalisierung des Originalsignals. Die Aktivierungsworterkennung führt zu einer Genauigkeit von > 99 % unter Verwendung des exakt auslesbaren Algorithmus für maschinelles Lernen, indem nur das MLP neu trainiert wird. Dies impliziert, dass der Hopf-Reservoir-Computer die Schlussfolgerung und Neukonfiguration am Rande des Schallerkennungssystems ermöglicht. Darüber hinaus bietet der gesprochene Zifferndatensatz im Vergleich zu anderen Reservoir-Computing-Systemen (z. B. 15,16,17,22) eine überlegene Leistung, ohne dass eine komplexe Vorverarbeitung, mehrere physische Geräte oder Maskenfunktionen erforderlich sind. Darüber hinaus haben wir unsere Benchmarking-Experimente auch mit weitaus realistischeren Datensätzen durchgeführt (z. B. dem 10-Klassen-Datensatz zur städtischen Geräuscherkennung und dem 4-Klassen-Wake-Words-Datensatz). Wir demonstrieren eine gesteigerte Leistung der Audiosignalverarbeitung durch Änderung der Aktivierungssignalstärke des Hopf-Oszillators, was bedeutet, dass es im Vergleich zu anderen Reservoir-Implementierungen mehr Freiheitsgrade für die Neukonfiguration physischer Reservoir-Computer gibt.

Schließlich haben wir die Algorithmen und die Vorverarbeitung der Daten für Schallerkennungsaufgaben sorgfältig ausgearbeitet, um den Gesamtenergieverbrauch, einschließlich der digitalen Anzeige, basierend auf FLOPS-Operationen und der analogen Abtastrate unter 1 mW zu halten. Die Rechenlast, die weniger als 700 Soundclips eines 10-Klassen-Datensatzes zum Trainieren von Modellen für maschinelles Lernen verwendet, liegt deutlich unter der Grenze der Rechenressourcen, über die Verbraucherelektronikgeräte verfügen. Daher könnten die Schallerkennungsgeräte, die einen Hopf-Reservoir-Computer verwenden, mühelos in Geräte mit nicht nachvollziehbarem Anstieg der Rechenlast integriert werden.

Bei der Audiosignalerkennung spielen drei Elemente eine wichtige Rolle. Das Grenzzyklussystem erzeugt im Zeitbereich ein Oszillationssignal mit einer Sinusform, das sich kontinuierlich mit dem eingehenden Audiosignal faltet. Diese Faltung erinnert an die Fourier-Transformation und der Hopf-Oszillator erzeugt einzigartige Muster für die Audioerkennung (z. B. Abb. 2). Interessanterweise entspricht dieser Prozess weitgehend dem Prozess der Cochlea bei der Extraktion der von den Neuronen wahrnehmbaren Schallsignalmerkmale. Die nichtlineare Schwingung des Hopf-Oszillators in zeitlicher Richtung erzeugt Knotenverbindungen des Reservoircomputers, entsprechend den Neuronenverbindungen im DNN. Darüber hinaus führt die Nichtlinearität des Hopf-Oszillators dazu, dass er unterschiedlich auf Signale reagiert, die verschiedene charakteristische Merkmale des Audiosignals breitbandig aufweisen, was zu einer sauberen Trennung der Merkmale führt (Abb. 2 und 7a). Es ist erwähnenswert, dass einige neuere Studien38, 39 haben gezeigt, dass die Cochlea und ihre direkt verbundenen Neuronen ein Grenzzyklussystem erzeugen, das die vorherigen Audiosignale als Aktivierung verwendet, um die Leistung der Cochlea bei der Extraktion von Audiosignalmerkmalen dynamisch zu verbessern. Das physikalische Modell des Innenohrs kann als Hopf-Oszillator mit einer zeitverzögerten Rückkopplungsschleife modelliert werden, die die Signale früherer Zeitpunkte nutzt, um die Grenzzyklusschwingungen zu aktivieren. Die Erkennung des Audiosignals erfolgt tatsächlich im Innenohr und nicht im Gehirn. Eine interessante zukünftige Erweiterung dieser Arbeit besteht darin, verschiedene Aktivierungssignale zu untersuchen, um ein künstliches Ohr zu schaffen, das zur Audioerkennung auf der Membran fähig ist. In der Zwischenzeit beeinflussen sich die beiden Zustände des Hopf-Oszillators zeitlich verzögert, was die für die Zeitreihensignalverarbeitung wesentlichen Memory-Effekte verstärkt.

Die in diesem Artikel aufgezeigten einzigartigen Vorteile des Hopf-Reservoircomputers ebnen den Weg für die nächste Generation intelligenter IoT-Geräte, die die ungenutzte Rechenleistung in Sensornetzwerken nutzen. Insbesondere finden die physikalischen Mechanismen, die das Reservoir-Computing unterstützen, auch in der Mikrofonmembran mit sorgfältig gestalteten Aktivierungssignalen statt38. Man könnte sich vorstellen, dass zukünftige Mikrofone die Schallsignalerkennung direkt über Sensormechanismen statt über spezielle Verarbeitungsgeräte steuern. Darüber hinaus besteht die Merkmalskarte von Tonsignalen, wie in Abb. 2 dargestellt, aus einzigartigen Mustern, die von einem Faltungs-Neuronalen Netzwerk erkannt werden, das üblicherweise für die visuelle Signalverarbeitung verwendet wird. Eine Erweiterung der vorliegenden Arbeit wird die Korrelationen von Audiosignal-Merkmalskarten, visuellen Signal-Merkmalskarten und anderen Arten von Zeitreihendatenmerkmalen untersuchen. Daher könnte Reservoir Computing als Rückgrat für multimodales maschinelles Lernen in intelligenten IoT-Paradigmen verwendet werden, einschließlich Sensorfusion, Audio-Video-Signalkombination und dezentralem maschinellen Lernen. Die extrem geringe Menge an Trainingsdaten, die für den maschinellen Lernvorgang erforderlich ist, und die im Abschnitt „Ergebnisse“ beschriebene klare Funktionstrennung könnten überraschend zufriedenstellende Ergebnisse liefern, was für viele Anwendungsfälle ohne den Luxus unbegrenzter Größen von Datensätzen (z. B. weiche Benutzeridentifikation) unerlässlich ist ) oder bei lauten Umgebungen (z. B. einer Mischung verschiedener Signale). Ein Beispiel ist in Abb. 10 dargestellt: Ein acht Sekunden langes Audiosignal, das aus mehreren verschiedenen Signalen (z. B. Autohupe, Bohren und Sirene) besteht, wird verwendet, um den Proof-of-Concept des Hopf-Reservoircomputers zur gemischten Signalverarbeitung zu demonstrieren. In den ersten vier Sekunden des Audioclips sind nur Autohupen- und Bohrgeräusche zu hören. In den letzten vier Sekunden wird der Sirenenton mit höherer Amplitude hinzugefügt. Wie in der Abbildung gezeigt, haben die vom Hopf-Reservoircomputer generierten Audiomerkmale eine eindeutig dominante Klasse in der zweiten Hälfte der Daten und weisen eine visuell hohe Korrelation mit den Audiomerkmalen auf, die durch einen sauberen Sirenenton mit demselben Hopf-Reservoircomputer erzeugt werden (an). Euklidischer Abstand kleiner als 8). Wir gehen davon aus, dass ein Mustervergleichsalgorithmus, der aus Computer-Vision-Anwendungen stammt, bei dieser Art der Trennung und Verarbeitung von Audioereignissen eingesetzt werden könnte.

Ein Lärmwiderstandstest unter Verwendung von Audiomerkmalen, die aus der Stadtgeräuscherkennungsaufgabe generiert wurden. Während der ersten vier Sekunden dieses acht Sekunden langen Clips werden Bohr- und Autohupengeräusche gemischt, und in den letzten vier Sekunden wird den gemischten Daten das Sirenengeräusch mit hoher Amplitude (zweimal größer im Vergleich zu den anderen beiden Audioklassen) hinzugefügt . Wie in der Abbildung gezeigt, weisen die letzten vier Sekunden der Audiofunktionen eine hohe Ähnlichkeit im Vergleich zum Referenzsirenenton auf.

Die Implementierung dieses Faltungs-Neuronalen Netzwerks basiert auf dem gleichen Ansatz des maschinellen Lernens, der von30 vorgeschlagen wurde. Unter Verwendung derselben städtischen Geräuscherkennungsaufgabe ermöglicht dies einen direkten Vergleich der aus dem physischen Reservoircomputer extrahierten Merkmale sowie der normalerweise verwendeten Spektrogrammtechnik. Unter Verwendung der gleichen maschinellen Lernauslesung, aber ohne rechenintensive Vorverarbeitung des Audios, erzielte die in diesem Artikel verwendete Rechenarchitektur für physikalische Reservoire eine Genauigkeitsverbesserung von 10 % im Vergleich zu 30. In realistischen Anwendungen für das Internet der Dinge kann diese Methode des maschinellen Lernens mithilfe dedizierter neuronaler Prozessoren wie dem Syntiant ND101 angewendet werden. Dieser spezielle Chip könnte etwa 60.000 neuronale Kerne bereitstellen, was deutlich über den Anforderungen des in der Arbeit verwendeten Modells für maschinelles Lernen liegt (\(\sim\)40.000 neuronale Kerne). Als alternativer Ansatz könnten die vom Reservoircomputer generierten Funktionen weiter entwickelt werden, um die Datenmenge für die Audioerkennung zu komprimieren, sodass die Modelle auf Low-Level-Edge-Prozessoren eingesetzt werden können.

Es gibt immer noch Grenzen bei der Reservoirberechnungsmethode unter Verwendung des Hopf-Oszillators in seiner aktuellen Form. Erstens erfordert die hochpräzise Erkennung von Schallereignissen viele virtuelle Knoten, um verschiedene Merkmale für die maschinelle Wahrnehmung zu generieren. Allerdings führt die Vergrößerung der virtuellen Knoten zu einem exponentiellen Anstieg der Abtastrate zum Lesen hochwertiger Audiodaten. Wir suchen aktiv nach Lösungen, um Audiofunktionen zur Erkennung und Aufzeichnung vom Originalsignal zu trennen, was die erforderliche Abtastrate verringern könnte. Zweitens trennt das aktuelle schaltkreisbasierte physikalische Reservoir den Prozess der Signalmischung und der Aktivierung des Schaltkreises. Eine Neugestaltung der Schaltung ist erforderlich, um die Signalauslesung für den zukünftigen Systemeinsatz zu vereinfachen. Die ultimative Version des Hopf-Reservoirs mit MEMS wird dieses Problem jedoch lösen, da die Berechnung auf den Audio-Sensormechanismen erfolgt. Schließlich basiert die Signalverarbeitung immer noch auf einer digitalen Anzeige. Obwohl der Algorithmus bemerkenswert einfach ist, ist eine Mikrocontroller-Einheit erforderlich. Wir gehen davon aus, dass die kurzfristige Lösung darin bestehen wird, das optimierte Modell für maschinelles Lernen als Firmware bereitzustellen (wobei weniger als 1 MB statischer Speicher ohne Optimierung und weniger als 256 KB dynamischer Speicher für das Training aktualisierter Modelle für maschinelles Lernen verbraucht werden). Ein zukünftiges Ziel sollte die Verwendung einer analogen Schaltung sein, die die Spitzensignale für die Audioerkennung erkennen könnte (ähnlich wie Neuronen), um einen vollständig analogen Computer auf Edge-Geräten zu erreichen40.

Der physikalische Reservoircomputer von Hopf wird durch ein proprietäres Schaltungsdesign realisiert, das von24 vorgeschlagen wurde. Gemäß dem Schema in Abb. 11 wird die Schaltung unter Verwendung von Operationsverstärkern TL082 und Multiplizierern AD633 implementiert. Das Eingangsaudiosignal wird zunächst auf den Bereich von \(-1\) bis \(+1\) normalisiert und mit dem sinusförmigen Antriebssignal in MATLAB gemischt, dann wird es von einem National Instrument (NI) cDAQ- an die Schaltung gesendet. 9174 Daten-E/A-Modul. Die Ausgänge der Schaltung, die als x- und y-Zustände des Hopf-Oszillators bezeichnet werden, werden mit einer Abtastrate von \(10^5\) Abtastwerten/s vom gleichen NI cDAQ-9174 für die spätere maschinelle Lernverarbeitung erfasst.

Ein vereinfachtes Schaltbild des Hopf-Reservoircomputers.

In den Schallerkennungsexperimenten werden drei Datensätze verwendet. Dazu gehören die Erkennung städtischer Geräusche, Sprachbefehle von Qualcomm und gesprochene Ziffern. Der Datensatz zur Erkennung städtischer Geräusche besteht aus 873 Audioclips aus 10 Klassen, bei denen es sich um hochwertige Stadtgeräuschclips handelt, die in New York City aufgenommen wurden41. Jeder Audioclip ist vier Sekunden lang und hat eine Abtastrate von mindestens 44,1 kHz. Im Vergleich zu allgemein verfügbaren Datensätzen verfügen wir über eine äußerst geringe Anzahl von Stichproben.

Um die Rekonfigurierbarkeit des Hopf-Reservoircomputers für die Audioverarbeitung zu demonstrieren, wird auch der Sprachbefehlsdatensatz von Qualcomm verwendet. Dieser Datensatz besteht aus 4270 Audioclips, wobei jeder Clip eine Sekunde dauert. Dabei handelt es sich um vier Weckwörter, die von Sprechern mit unterschiedlichen Sprechgeschwindigkeiten und Akzenten gesammelt wurden42. Aus dem Datensatz verwenden wir 1000 Clips für Experimente. Im Vergleich zum vorherigen Fall der Stadtgeräuscherkennung besteht der einzige Unterschied im Verarbeitungsalgorithmus in der Neuschulung des Ausgabeteils (d. h. nach Faltungsschichten) der maschinellen Lernauslesung (Einzelheiten werden im späteren Teil des Abschnitts zur Methodik und im Abschnitt zu den Ergebnissen erläutert). des Papiers). Um das vorgeschlagene Hopf-Reservoir mit anderen Reservoirs zu vergleichen, führen wir außerdem ein Experiment zur Erkennung gesprochener Ziffern durch, das als Standard-Benchmarking-Test für Reservoir-Computing dient. Der Datensatz der gesprochenen Ziffern besteht aus 3000 Audioclips, die von fünf verschiedenen Sprechern gesprochen werden43. Wie beim Sprachbefehlsdatensatz von Qualcomm ist die Gesamtzahl der Audioclips für die Experimente auf nur 1000 festgelegt.

Aus Gründen der Verarbeitungsgeschwindigkeit sampeln wir jeden Audioclip erneut mit einer Abtastrate von 4000 Hz und normalisieren die Daten auf den Bereich von \(-1\) bis \(+1\), bevor wir sie an die analoge Schaltung senden. 80 % der Ausgänge der Schaltung werden zum Training des maschinellen Lernmodells verwendet, die restlichen 20 % zum Testen.

In Abb. 1 sind die Knotenverbindungen des Hopf-Reservoircomputers dargestellt. Obwohl wir nur einen 1D-Datenstrom von der Hopf-Schaltung sammeln, besteht der Datenstrom sowohl aus Eingangssignalen als auch aus der Antwort der virtuellen Knoten, die durch die Abtastgeschwindigkeit der Signale definiert wird44. Wir folgen diesem Prinzip der Anordnung und Manipulation von Signalen anhand ihrer virtuellen Knoten. Der Ausgang aus dem Kreislaufreservoir wird zunächst mithilfe einer umgekehrten hyperbolischen Tangensfunktion24,45 aktiviert:

Anschließend wird die aktivierte Ausgabe in der Reihenfolge der virtuellen Knoten als Feature-Maps für die Maschinenwahrnehmung neu angeordnet. Eine beispielhafte Feature-Map-Wiedergabe bestehend aus 10 verschiedenen Klassen von Stadtgeräuschen ist in Abb. 2 dargestellt. Der Hopf-Reservoir-Computer erstellt diese Feature-Map wie im Abschnitt „Hopf-Oszillator und Reservoir“ beschrieben, die dann als Eingabe für das neuronale Netzwerk verwendet wird Dies ist in Abbildung 12 dargestellt. Tatsächlich entlastet der Hopf-Reservoircomputer die Kosten für das rechenintensive Mel-Spektrum. Eine Swish-Aktivierung46 wird eingesetzt, um die Leistung des maschinellen Lernmodells bei der Verarbeitung spärlicher Neuronenaktivierung (d. h. Probleme mit toten Neuronen) und die Gesamtgenauigkeit des maschinellen Lernmodells bei der Verarbeitung von Audiodaten zu steigern. Beachten Sie, dass eine zukünftige Version der Software für maschinelles Lernen, die übersprungene Verbindungen verwendet (die Restnetzwerke generieren)47, die Robustheit der Software für große Datenmengen weiter steigern wird. Jeder 1-Sekunden-Clip der Ausgaben wird für die Verarbeitung durch maschinelles Lernen (wie in Abb. 12 gekennzeichnet) weiter auf 200 (Anzahl der Zeitabtastwerte) \(\times\) 100 (Anzahl der virtuellen Knoten) übersprungen. Der Algorithmus für maschinelles Lernen wird mithilfe von Keras48 mit einem TensorFlow-Backend implementiert. Das Training wird auf einer Nvidia RTX 2080Ti-GPU durchgeführt und verwendet einen Adam-Optimierer mit der Standard-Lernrate von 0,00149. Die Verlustfunktion ist Kreuzentropie50. Die Batch-Größe während des Trainings beträgt 5; Die Epochen betragen 100 für den Datensatz zur städtischen Geräuscherkennung, 20 für den Qualcomm-Sprachbefehlsdatensatz und 100 für die gesprochenen Ziffern.

Ein Schema, das die auf einem Faltungs-Neuronalen-Netzwerk basierende maschinelle Lernauslesung zur Klassifizierung der Audioereignisse mithilfe des Hopf-Reservoir-Computers zeigt. Die hellblauen Kästchen in der Abbildung entsprechen den Feature-Maps, die aus den einzelnen maschinellen Lernvorgängen generiert wurden. Die Pfeile sind die verschiedenen maschinellen Lernoperationen. Die Zahlen über den hellblauen Kästchen geben die Tiefe der Feature-Maps an, und die unteren Zahlen geben die Länge bzw. Breite der Feature-Maps an. Ein maximales Pooling mit einer Größe von (2,2) wird auch nach zwei aufeinanderfolgenden Faltungen durchgeführt, um die Dimension der Feature-Maps zu reduzieren. Beachten Sie, dass wir für Länge und Breite nur die Abmessungen beschriften, die nach maschinellen Lernvorgängen geändert werden.

Die während der aktuellen Studie verwendeten und analysierten Datensätze sind auf begründete Anfrage beim entsprechenden Autor erhältlich.

Lee, W. et al. Biosignalsensoren und Deep-Learning-basierte Spracherkennung: Ein Rückblick. Sensoren 21(4), 1399 (2021).

Artikel ADS PubMed PubMed Central Google Scholar

Karmakar, P., Teng, SW & Lu, G. Vielen Dank für Ihre Aufmerksamkeit: Eine Umfrage zu aufmerksamkeitsbasierten künstlichen neuronalen Netzen für die automatische Spracherkennung. arXiv-Vorabdruck arXiv:2102.07259 (2021).

Filho, CP et al. Eine systematische Literaturrecherche zum verteilten maschinellen Lernen im Edge Computing. Sensoren 22(7), 2665 (2022).

Artikel ADS PubMed PubMed Central Google Scholar

Li, C. Openais gpt-3-Sprachmodell: Ein technischer Überblick. Blogbeitrag (2020).

Patterson, D. et al. Der CO2-Fußabdruck des maschinellen Lerntrainings wird ein Plateau erreichen und dann sinken. Computer 55(7), 18–28 (2022).

Artikel Google Scholar

Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. & Sutskever, I. Robuste Spracherkennung durch groß angelegte schwache Supervision. https://cdn.openai.com/papers/whisper.pdf (2021). Zugriff am 28. September 2022.

Gegner. Der Weg zu sicherer und vertrauenswürdiger KI. https://adversa.ai/report-secure-and-trusted-ai/ (2021). Zugriff am 28. September 2022.

IBM-Sicherheit. Kosten einer Datenschutzverletzung 2022. https://www.ibm.com/reports/data-breach (2022). Zugriff am 28. September 2022.

Garg, R. Offene Fragen der Datenschutz- und Sicherheitspolitik und deren Einfluss auf die Nutzung des Internets der Dinge. Erster Montag (2018).

Deep, S. et al. Eine Übersicht über Sicherheits- und Datenschutzprobleme im Internet der Dinge aus dem mehrschichtigen Kontext. Trans. Emerg. Telekommunikation. Technol. 33(6), e3935 (2022).

Google Scholar

Hao, K. Das Training eines einzelnen KI-Modells kann im Laufe seines Lebens so viel Kohlenstoff ausstoßen wie fünf Autos (2019). https://www.technologyreview.com/2019/06/06/239031 (2019). Zugriff am 28. September 2022.

Fernando, C. & Sojakka, S. Mustererkennung in einem Eimer. In European Conference on Artificial Life 588–597 (Springer, 2003).

Tanaka, G. et al. Jüngste Fortschritte beim Computing physikalischer Reservoire: Ein Rückblick. Neuronales Netz. 115, 100–123 (2019).

Artikel PubMed Google Scholar

Shougat, MR, Li, X., Mollik, T. & Perkins, E. Eine informationstheoretische Studie eines Duffing-Oszillator-Array-Reservoircomputers. J. Comput. Nichtlineare Dyn. 16(8), 081004 (2021).

Artikel Google Scholar

Morán, A. et al. Hardwareoptimiertes Reservoir-Computing-System für Edge-Intelligence-Anwendungen. Cogn. Comput.https://doi.org/10.1007/s12559-020-09798-2 (2021).

Artikel Google Scholar

Usami, Y. et al. In-materio-Reservoir-Computing in einem sulfonierten Polyanilin-Netzwerk. Adv. Mater. 33(48), 2102688 (2021).

Artikel CAS Google Scholar

Moon, J. et al. Klassifizierung und Vorhersage zeitlicher Daten mithilfe eines Memristor-basierten Reservoir-Rechnersystems. Nat. Elektron. 2(10), 480–487 (2019).

Artikel Google Scholar

Mizrahi, A. et al. Neuronales Rechnen mit Populationen superparamagnetischer Basisfunktionen. Nat. Komm. 9(1), 1–11 (2018).

Artikel ADS CAS Google Scholar

Grollier, J. et al. Neuromorphe Spintronik. Nat. Elektron. 3(7), 360–370 (2020).

Artikel Google Scholar

Größer, L. et al. Hochgeschwindigkeits-Photonic-Reservoir-Computing mit einer zeitverzögerungsbasierten Architektur: Klassifizierung von Millionen Wörtern pro Sekunde. Physik. Rev. X 7(1), 011015 (2017).

Google Scholar

Barazani, B., Dion, G., Morissette, J.-F., Beaudoin, L. & Sylvestre, J. Mikrofabrizierter Neurobeschleunigungsmesser: Integration von Sensorik und Reservoir-Computing in Mems. J. Mikroelektromech. Syst. 29(3), 338–347 (2020).

Artikel Google Scholar

Kan, S. et al. Einfache Reservoirberechnung unter Nutzung der nichtlinearen Reaktion von Materialien: Theorie und physikalische Implementierungen. Physik. Rev. Appl. 15(2), 024030 (2021).

Artikel ADS CAS Google Scholar

Beschwerdeführer, L. et al. Informationsverarbeitung unter Verwendung eines einzelnen dynamischen Knotens als komplexes System. Nat. Komm. 2(1), 1–6 (2011).

Artikel Google Scholar

Shougat, MREU, Li, XF, Mollik, T. & Perkins, E. Ein physikalischer Reservoircomputer von Hopf. Wissenschaft. Rep. 11(1), 1–13 (2021).

Artikel ADS Google Scholar

Shougat, MREU, Li, XF & Perkins, E. Dynamische Auswirkungen auf die Reservoirberechnung mit einem Hopf-Oszillator. Physik. Rev. E 105(4), 044212 (2022).

Artikel ADS MathSciNet CAS PubMed Google Scholar

Li, XF et al. Stochastische Effekte auf einen adaptiven Hopf-Frequenzoszillator. J. Appl. Physik. 129(22), 224901 (2021).

Artikel ADS CAS Google Scholar

Li, XF et al. Ein adaptiver Hopf-Oszillator mit vier Zuständen. PLoS ONE 16(3), e0249131 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Shougat, MR, Kennedy, S. & Perkins, E. Ein selbsterkennender physikalischer Reservoircomputer mit Formgedächtnislegierungsaktuator. IEEE Sens. Lett.https://doi.org/10.1109/LSENS.2023.3270704 (2023).

Artikel Google Scholar

Nayfeh, AH & Balachandran, B. Angewandte nichtlineare Dynamik: Analytische, rechnerische und experimentelle Methoden (John Wiley & Sons, Hoboken, 2008).

MATH Google Scholar

Yun, J., Srivastava, S., Roy, D., Stohs, N., Mydlarz, C., Salman, M., Steers, B., Bello, JP & Arora, A. Infrastrukturfreie, tief erlernte Stadt Lärmüberwachung bei 100 mW. AdRR (2022).

Gao, Y., Liu, Y., Zhang, H., Li, Z., Zhu, Y., Lin, H. & Yang, M. Schätzung des GPU-Speicherverbrauchs von Deep-Learning-Modellen. In Proceedings of the 28th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering 1342–1352 (2020).

Lin, J., Zhu, L., Chen, WM, Wang, WC, Gan, C. & Han, S. On-Device-Training unter 256 KB Speicher. arXiv-Vorabdruck arXiv:2206.15472 (2022).

Rajaby, E. & Sayedi, SM Eine strukturierte Übersicht über spärliche schnelle Fourier-Transformationsalgorithmen. Ziffer. Signalprozess. 123, 103403 (2022).

Artikel Google Scholar

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S. et al. Ein Bild sagt mehr als 16x16 Worte: Transformatoren für die Bilderkennung im Maßstab. arXiv-Vorabdruck arXiv:2010.11929 (2020).

Kaur, A., Kaur, L. & Gupta, S. Bilderkennung mithilfe des Korrelationskoeffizienten und des Strukturähnlichkeitsindex in unkontrollierter Umgebung. Int. J. Comput. Appl.59(5) (2012).

Sazli, MH Ein kurzer Überblick über Feed-Forward-Neuronale Netze. Kommunikationsfakultät für Naturwissenschaften, Universität Ankara, Reihe A2-A3, Physikalische Wissenschaften und Ingenieurwissenschaften50(01) (2006).

Wang, L., Zhang, Y. & Feng, J. Über den euklidischen Abstand von Bildern. IEEE Trans. Muster Anal. Mach. Intel. 27(8), 1334–1339 (2005).

Artikel PubMed Google Scholar

Lenk, C., Ekinci, A., Rangelow, IW & Gutschmidt, S. Aktive, künstliche Haarzellen zur biomimetischen Schallerkennung basierend auf aktiver Cantilever-Technologie. Im Jahr 2018 40. jährliche internationale Konferenz der IEEE Engineering in Medicine and Biology Society (EMBC) 4488–4491 (IEEE, 2018).

Gomez, F., Lorimer, T. & Stoop, R. Signalgekoppelte Unterschwellensysteme vom Hopf-Typ zeigen eine geschärfte kollektive Reaktion. Physik. Rev. Lett. 116, 108101 (2016).

Artikel ADS PubMed Google Scholar

Ma, S., Brooks, D. & Wei, G.-Y. Ein binär aktivierender, mehrstufiger RNN- und Trainingsalgorithmus für ADC-/DAC-freie und rauschresistente Inferenzverarbeitung im Speicher mit eNVM. arXiv-Vorabdruck arXiv:1912.00106 (2019).

Salamon, J., Jacoby, C. & Bello, JP Ein Datensatz und eine Taxonomie für die Stadtklangforschung. In Proceedings der 22. ACM International Conference on Multimedia 1041–1044 (2014).

Kim, B., Lee, M., Lee, J., Kim, Y. & Hwang, K. Keyword-Spotting auf dem Gerät anhand von Beispielabfragen. Im Jahr 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 532–538 (IEEE, 2019).

Jackson, Z. Free Spoken Digit Dataset (FSDD). https://github.com/Jakobovski/free-spoken-digit-dataset (2018). Zugriff am 28. September 2022.

Jacobson, P., Shirao, M., Kerry, Yu., Guan-Lin, S. & Ming, CW Hybrides Faltungs-Optoelektronisches Reservoir-Computing zur Bilderkennung. J. Lightwave Technol. 40(3), 692–699 (2021).

Artikel ADS Google Scholar

Miller, CL & Freedman, R. Die Aktivität von Interneuronen und Pyramidenzellen des Hippocampus während der Reaktion des Hippocampus auf wiederholte Hörreize. Neuroscience 69(2), 371–381 (1995).

Artikel CAS PubMed Google Scholar

Ramachandran, P., Zoph, B. & Le, QV Auf der Suche nach Aktivierungsfunktionen. arXiv-Vorabdruck arXiv:1710.05941 (2017).

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 770–778 (2016).

Chollet, F. Keras: Deep Learning für Menschen. https://github.com/keras-team/keras (2015). Zugriff am 28. September 2022.

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. arXiv-Vorabdruck arXiv:1412.6980 (2014).

De Boer, P.-T., Kroese, DP, Mannor, S. & Rubinstein, RY Ein Tutorial zur Kreuzentropiemethode. Ann. Oper. Res. 134(1), 19–67 (2005).

Artikel MathSciNet MATH Google Scholar

Referenzen herunterladen

Die Autoren schätzen auch die fruchtbare Diskussion der experimentellen Vorgehensweisen und Ergebnisse mit Dr. Omar Zahr und Dr. Helge Seetzen sehr.

Diese Autoren trugen gleichermaßen bei: Md Raf E. Ul Shougat, XiaoFu Li, Siyao Shao, Kathleen McGarvey und Edmon Perkins.

Abteilung für Maschinenbau und Luft- und Raumfahrttechnik, North Carolina State University, 1840 Entrepreneur Drive, Raleigh, NC, 27695, USA

MD Raph E. Ul Shougat

LAB2701, Atwood, OK, 74827, USA

XiaoFu Li & Edmon Perkins

TandemLaunch, 780 Av. Brewster, Montreal, H4C2K1, Kanada

Siyao Shao und Kathleen McGarvey

echosonic, 780 Av. Brewster, Montreal, H4C2K1, Kanada

Siyao Shao

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MREUS, XL, SS, KWM und EP haben die Konzepte und Perspektiven in diesem Artikel gemeinsam konzipiert und gemeinsam das Manuskript geschrieben.

Korrespondenz mit Edmon Perkins.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Shougat, MREU, Li, X., Shao, S. et al. Hopf-Physical-Reservoir-Computer zur rekonfigurierbaren Klangerkennung. Sci Rep 13, 8719 (2023). https://doi.org/10.1038/s41598-023-35760-x

Zitat herunterladen

Eingegangen: 20. Februar 2023

Angenommen: 23. Mai 2023

Veröffentlicht: 30. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-35760-x

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE