SpectFormer von Microsoft und Bath U verbessert die Sehtransformatoren durch Frequenz und Aufmerksamkeit erheblich
In dem neuen Artikel SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer schlägt ein Forschungsteam von Microsoft und der University of Bath Spectformer vor, eine neuartige Transformer-Architektur, die spektrale und mehrköpfige Aufmerksamkeitsschichten kombiniert, um geeignete Merkmalsdarstellungen besser zu erfassen und die Leistung verbessern.
Im Anschluss an die bahnbrechende Leistung großer Sprachmodelle, die auf der Transformer-Architektur basieren, haben sich Vision Transformers (ViTs) als leistungsstarker Ansatz für die Bildverarbeitung herauskristallisiert. Wie ihre textbasierten Vorgänger stützten sich ViTs zunächst auf mehrköpfige Selbstaufmerksamkeitsschichten, um Merkmale aus Eingabebildern zu erfassen, während neuere Ansätze Spektralschichten zur Darstellung von Bildfeldern im Frequenzbereich verwendeten. Könnten ViTs von einer Architektur profitieren, die beide Methoden umfasst?
In dem neuen Artikel SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer schlägt ein Forschungsteam von Microsoft und der University of Bath SpectFormer vor, eine neuartige Transformer-Architektur, die spektrale und mehrköpfige Aufmerksamkeitsschichten kombiniert, um geeignete Merkmalsdarstellungen besser zu erfassen und die ViT-Leistung verbessern.
Das Team fasst seine wichtigsten Beiträge wie folgt zusammen:
Das Team untersucht zunächst, wie verschiedene Kombinationen von Spektral- und mehrköpfigen Aufmerksamkeitsschichten im Vergleich zu reinen Aufmerksamkeits- oder Spektralmodellen funktionieren, und kommt zu dem Schluss, dass die Ausstattung des vorgeschlagenen SpectFormer mit anfänglichen Spektralschichten, die mit Fourier-Transformation implementiert werden, gefolgt von mehrköpfigen Aufmerksamkeitsschichten, die vielversprechendsten Ergebnisse erzielt .
Die SpectFormer-Architektur besteht aus vier Hauptkomponenten: einer Patch-Einbettungsschicht, einer Positionseinbettungsschicht, einem Transformatorblock, der eine Reihe von Spektralschichten gefolgt von Aufmerksamkeitsschichten umfasst, und einem Klassifizierungskopf. Die SpectFormer-Pipeline transformiert Bild-Token zunächst in den Fourier-Bereich (in den Spektralraum), wo eine frequenzbasierte Analyse der Bildinformationen durchgeführt und relevante Merkmale erfasst werden; wendet dann Gating-Techniken über lernbare Gewichtsparameter an; und führt schließlich eine inverse Fourier-Transformation durch, um das Signal vom Spektralraum in den physikalischen Raum zurückzuführen.
In ihrer empirischen Studie verglich das Team SpectFormer mit dem mehrköpfigen, auf Selbstaufmerksamkeit basierenden DeIT, der parallelen Architektur LiT und den spektralbasierten GFNet ViTs bei verschiedenen Objekterkennungs- und Bildklassifizierungsaufgaben. SpectFormer übertraf in den Experimenten alle Ausgangswerte und erreichte beim ImageNet-1K-Datensatz die höchste Top-1-Genauigkeit (85,7 %).
Code und zusätzliche Informationen sind auf der Webseite des Projekts verfügbar. Der Artikel Spectformer: Frequency and Attention Is What You Need in a Vision Transformer ist auf arXiv.
Autor: Hekate Er |Editor: Michael Sarazen
Wir wissen, dass Sie keine Neuigkeiten oder Forschungsdurchbrüche verpassen möchten.Abonnieren Sie unseren beliebten Newsletter Synced Global AI Weekly, um wöchentliche KI-Updates zu erhalten.
Maschinenintelligenz | Technologie & Industrie | Information & Analyse
Toller Beitrag. Toller Artikel! Die vorgeschlagene SpectFormer-Architektur scheint sehr vielversprechend. Ich bin gespannt, wie es im Vergleich zu anderen hochmodernen Modellen wie Swin Transformer und ViT-L in Bezug auf Leistung und Recheneffizienz abschneidet. Glauben Sie, dass SpectFormer das Potenzial hat, der neue Maßstab für Vision Transformer zu werden?Johnhttps://www.airiches.online/
Mir gefällt wirklich, wie einfach die Lektüre für mich ist. Ich möchte erfahren, wie ich benachrichtigt werde, wenn ein neuer Beitrag erstellt wird.
Deine Email-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *
Kommentar *
Name
Webseite
Benachrichtigen Sie mich über nachfolgende Kommentare per E-Mail.
Benachrichtigen Sie mich per E-Mail über neue Beiträge.
D
Autor Herausgeber Abonnieren Sie unseren beliebten Newsletter Synced Global AI Weekly, um wöchentliche KI-Updates zu erhalten.